关键字:爬虫

  • 网站指定是被爬虫爬了
    今天登录网站后台发现今天的访问量为七万四千多,这个访问量指所有文章的访问量,具体是指每次文章接口被调用访问量会+1,所以瞬间感觉到网站应该是被爬了,虽然平常也有一些爬虫在爬,但是平常的访问量是保持在七千左右,今天的访问量明显异常,差不多是平常的十倍,为什么能这么肯定是爬虫呢,因为pv跟uv的访问量跟平常差不多,所有唯一的原因就是爬虫在工作了。虽然我能知道我的网站www.dsia
  • 从日志看到网站在被人使用php攻击
    最近升级了宝塔面板,看到新增了一个安全分析的功能,可以看到当前站点的日志分析情况。从扫描结果来看,分xss、sql、php攻击等类型,简单看了一些这几种类型的分析,xss基本上都是一些正常数据,扫描日志也大致正常,只有php攻击这一项能清楚的看到有人在使用php注入代码攻击网站。<img src="https://source.dsiab.com/upload/2
  • 爬虫太多添加robots文件来禁止一些爬虫访问网站
    自从网站的统计插件升级后,每天的uv/pv数据直线下降,但是每天的访问量却没有变化,访问量笔者采用的是统计每篇文章接口的调用量,所有有理由怀疑是爬虫导致的。之前网站一直都是没有做任何限制的,但是从某一天后发现网站运行比较慢,从登录后台管理的情况看尤为明显,页面加载都要一两秒,之前都不会出现这种情况。所以今天给网站添加了一个robots.txt文件来禁止一些爬虫,从
  • 更新统计插件让网站的统计功能更强大效果更好
    这个周末更新了一些网站的功能,主要是更新后台管理首页统计数据模块功能。更新这个模块的原因主要是更新了统计插件,之前引入的统计插件会经常获取不到数据,还会记录一些无效信息,经过这次的优化,功能精简许多。首先去掉了客户端唯一识别id,虽然之前处于某些原因加上这个字段,想着以后用来识别新老用户,但是最终决定不实现这个功能,所有在这个版本就删除了,因为这个功能引
  • redis 如何设置过期时间
    之前笔者的网站就用上了redis,但是并未注意给数据添加过期时间的,时间一长通过vscode的redis插件看到缓存的数据有两万多条,很多时候都是爬虫访问导致的,因为目前的缓存策略是如果访问某篇文章的时候优先从redis中取,如果redis中不存在,再从数据库中查询,如果存在就直接从redis中拿,从效果来看,提升速度明显,基本在2s内页面就能打开,当然也许是笔者的要求太低了。
  • 友盟U-Web将于2022年5月10日起不再提供免费的网站统计分析服务
    今天通过友盟统计查看网站数据时发现上方有通知,点击去一看发现友盟在5月份将停止免费服务,不胜唏嘘。本来之前网站一直使用的百度统计,但是为了避免对数据造成不真实性,因为笔者发现使用百度统计后在站长工具查询网站信息时能比较准确的信息,怀疑站长工具的信息是直接从百度统计获取的,所以后面就改用友盟统计了。当然对于笔者来说,使用哪一个都差不多,因为都
  • 一些常见的搜索引擎爬虫
    对于个人网站来说,爬虫是很重要的的,爬虫可以将你网站的内容收录从而提升网站曝光率。这里爬虫指的就是搜索引擎,因为搜索引擎本身也是爬虫。当然,好的爬虫对网站是有益的,但是还有一些无益的爬虫,也就是有目的性的爬虫,俗称采集,一方面可能会将你的网站的内容采集到他的网站,另一方面可能会加重服务器的负担,甚至于导致服务器宕机,
  • 如何给网站添加查看更多的功能
    现在我们可以看到很多网站都有一个查看更多的功能,需要点击这个按钮才能看到完整的功能,究其原因还是网站想留住用户,通过这个功能来跟用户产生互动。同时这个功能还能防止一些爬虫无节制的爬取资源,比如一些采集站点通过爬虫不停地爬取某个网站的内容作为伪原创内容发布到自己的网站,这个时候查看更多功能就发挥了很好的效果,必须要手动点击才能看到完整内容,对于一般的爬虫当
  • 网站的文章的id改为uuid
    最近更新了网站的一些功能,主要还是优化,发现之前的实现的功能有些缺陷。自增id改为uuid:虽然mysql官方支持将主键设置为自增id,但是对于数据量不大的网站来说用uuid也一样,而且对于爬虫采集方面来说更安全,对于自增id来说爬虫只要不停的枚举即可遍历所有的id,uuid则不存在这个问题。目前是启动一个定时任务把2022年的数据生成了uuid,历史数
  • 【番外01】吐血整理五万字100道高频基础面试题 无名面试集《烂俗前端》
    《烂俗前端》是一部以前端为题材的小说,涉及讨论职业、社会、技术、情感等话题,正在更新

暂无数据