爬虫太多添加robots文件来禁止一些爬虫访问网站

自从网站的统计插件升级后,每天的uv/pv数据直线下降,但是每天的访问量却没有变化,访问量笔者采用的是统计每篇文章接口的调用量,所有有理由怀疑是爬虫导致的。

之前网站一直都是没有做任何限制的,但是从某一天后发现网站运行比较慢,从登录后台管理的情况看尤为明显,页面加载都要一两秒,之前都不会出现这种情况。

所以今天给网站添加了一个robots.txt文件来禁止一些爬虫,从网站的访问日志来看,有两个爬虫成为禁用目标。

AhrefsBot、SemrushBot  这两个爬虫不出意外几乎是24小时在爬取内容,之前有通过nginx来限制,但是有一次配置重置掉了也就没再加,那种方式相对来水比较麻烦。

虽然添加robots这种方式就是防君子不防小人,如果对方遵守这个约定那倒还好,不遵守也没办法,不过还是要试一下,后面再检查一下日志看看到底禁止访问后还会不会再访问。

具体禁用代码为:

robots.txt

# robots.txt
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: *
Disallow: 
Crawl-delay: 120
Disallow: /cgi-bin/

本文章由javascript技术分享原创和收集

如若转载请注明原文及出处:https://www.dsiab.com/post/ae3c9ffc-9242-4d8b-8b08-07db63fcb54c
本站文章由javascript技术分享原创和收集,内容如有问题,请联系站长删除。

评论: