百度也怕别人偷他的内容,百度百科屏蔽谷歌/必应等搜索引擎抓取

8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件(https://baike.baidu.com/robots.txt)显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

百度也怕别人偷他的内容,百度百科屏蔽谷歌/必应等搜索引擎抓取插图

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

robots.txt文件是一种公开的说明文件,只能防君子,不能防小人,因为一些爬虫是不遵守robots协议的。

目前AI时代,几乎所有的AI都在大量抓取互联网公开内容来训练自己,主机帮博客发现这两年服务器配置明显吃不消,其原因就是网站时不时会有大量的爬虫在抓取网站的内容,为此,主机帮还特地购买了百度云防护来拦截特定UA的爬虫,不过显然效果不大,因为实在太多爬虫了,防不胜防。

总之这个时代,做网站太烦了,网站没什么流量不说,还在被一堆爬虫爬,有时候还要被DDOS,简直太惨了。

给TA打赏
共{{data.count}}人
人已打赏
在线客服
主机帮
我们将24小时内回复。
2024-12-04 01:44:14
您好,有任何疑问请与我们联系!
您的工单我们已经收到,我们将会尽快跟您联系!
[QQ客服]
176363189
当幸福来敲门
[小黄]
17307799197
[企业邮箱]
sudu@yunjiasu.cc
取消

选择聊天工具: