爬虫太多添加robots文件来禁止一些爬虫访问网站

作者: 图恩分类: 开发笔记阅读: 727字数: 537发布时间： 2022-07-17

自从网站的统计插件升级后，每天的uv/pv数据直线下降，但是每天的访问量却没有变化，访问量笔者采用的是统计每篇文章接口的调用量，所有有理由怀疑是爬虫导致的。

之前网站一直都是没有做任何限制的，但是从某一天后发现网站运行比较慢，从登录后台管理的情况看尤为明显，页面加载都要一两秒，之前都不会出现这种情况。

所以今天给网站添加了一个robots.txt文件来禁止一些爬虫，从网站的访问日志来看，有两个爬虫成为禁用目标。

AhrefsBot、SemrushBot 这两个爬虫不出意外几乎是24小时在爬取内容，之前有通过nginx来限制，但是有一次配置重置掉了也就没再加，那种方式相对来水比较麻烦。

虽然添加robots这种方式就是防君子不防小人，如果对方遵守这个约定那倒还好，不遵守也没办法，不过还是要试一下，后面再检查一下日志看看到底禁止访问后还会不会再访问。

具体禁用代码为：

robots.txt

# robots.txt
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: *
Disallow: 
Crawl-delay: 120
Disallow: /cgi-bin/