8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。
百度百科的robots.txt文件(https://baike.baidu.com/robots.txt)显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。
谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。
虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。
robots.txt文件是一种公开的说明文件,只能防君子,不能防小人,因为一些爬虫是不遵守robots协议的。
目前AI时代,几乎所有的AI都在大量抓取互联网公开内容来训练自己,主机帮博客发现这两年服务器配置明显吃不消,其原因就是网站时不时会有大量的爬虫在抓取网站的内容,为此,主机帮还特地购买了百度云防护来拦截特定UA的爬虫,不过显然效果不大,因为实在太多爬虫了,防不胜防。
总之这个时代,做网站太烦了,网站没什么流量不说,还在被一堆爬虫爬,有时候还要被DDOS,简直太惨了。