警告！OpenAI爬虫正在抓取我的网站

作者: 图恩分类: 开发笔记阅读: 289字数: 599发布时间： 2025-12-29

今天从网站的日志中无意发现了gpt的爬虫，没错，就是openai的那个gpt。不确定是真的，但是从爬虫的useragent来看是它，虽然这个请求头是可以伪造的，但是姑且认为它是真的吧。

如果你用过chatgpt这一类聊天工具，可以发现它看起来像是什么都懂，可谓是“上知天文，下至地理”，甚至博古通今。

那么它是不是真的这么厉害呢？答案是肯定的，因为它在无时无刻地采集全世界的信息，只有源源不断的数据，才能让它更聪明。

他就是一个超级大脑，每时每刻都在往它的大脑中输入数据，你跟他聊天的时候，它就从它的大脑里把提前记录的信息翻出来给你了，所以看起来很聪明，怎么问什么它都知道，因为他提前把信息都存进大脑了。

当然存进大脑，并没有想象中的那么简单，从数据的爬取，比如它在对我的网站进行爬取（javascript技术分享）。

爬取完需要对数据进行清洗，收集，整理，标注等等一系列的操作，然后分门别类的存入数据库，等你问它问题的时候，它就从数据库再取出来，加以修饰就成为你看到的答案了。

从截图来看，爬取的这部分内容数据量比较大，已经过百万的数据量，当然这些数据也是我采集的，如果能为ai所用，倒也还不错，因为对于我来说用处并不大。

虽然有了openai爬虫的光顾，但是网站也承受了不小的压力，从访问统计来看，基本上整天都有爬虫再爬虫，服务器的资源占用一直居高不下，不过目前来看也还能顶得住。

看看后面又什么变化吧。