警告!OpenAI爬虫正在抓取我的网站

今天从网站的日志中无意发现了gpt的爬虫,没错,就是openai的那个gpt。不确定是真的,但是从爬虫的useragent来看是它,虽然这个请求头是可以伪造的,但是姑且认为它是真的吧。

如果你用过chatgpt这一类聊天工具,可以发现它看起来像是什么都懂,可谓是“上知天文,下至地理”,甚至博古通今。

那么它是不是真的这么厉害呢?答案是肯定的,因为它在无时无刻地采集全世界的信息,只有源源不断的数据,才能让它更聪明。

他就是一个超级大脑,每时每刻都在往它的大脑中输入数据,你跟他聊天的时候,它就从它的大脑里把提前记录的信息翻出来给你了,所以看起来很聪明,怎么问什么它都知道,因为他提前把信息都存进大脑了。

当然存进大脑,并没有想象中的那么简单,从数据的爬取,比如它在对我的网站进行爬取(javascript技术分享)。

爬取完需要对数据进行清洗,收集,整理,标注等等一系列的操作,然后分门别类的存入数据库,等你问它问题的时候,它就从数据库再取出来,加以修饰就成为你看到的答案了。

从截图来看,爬取的这部分内容数据量比较大,已经过百万的数据量,当然这些数据也是我采集的,如果能为ai所用,倒也还不错,因为对于我来说用处并不大。

虽然有了openai爬虫的光顾,但是网站也承受了不小的压力,从访问统计来看,基本上整天都有爬虫再爬虫,服务器的资源占用一直居高不下,不过目前来看也还能顶得住。

看看后面又什么变化吧。

发表评论 (审核通过后显示评论):

昵称:
邮箱:
内容: