最近,主机邦一直在说拦截恶意爬虫的事情,最近有一家AI公司,就因为大量爬取别人网站而惹众怒。
起因是Claude的AI爬虫不仅无视网站的禁止抓取协议,而且还大量爬虫该网站上百万次,导致该网站直接瘫痪了。这家“受害者”公司其实有尽力防御了,但阻止失败,内容数据还是被Claude强行抓取了。
因此,该网站负责为此还怒喷Claude。
被抓取的这家公司叫做iFixit,是一家美国电子商务和操作指南网站。
iFixit的业务的一部分,是为消费电子产品和小工具提供类维基百科的免费在线维修指南。
网站内有数百万个页面,包括修理指南、指南的修订历史、博客、新闻帖子和研究、论坛、社区贡献的修理指南和问答部分等。
但,iFixit突然发现,Claude的爬虫程序ClaudeBot在几个小时内,每分钟都有数千次请求访问。
这约等于一天内访问其网站近百万次。
据统计,它一天内访问了10 TB的文件,整个5月份总计访问了73 TB。
其实国内也有类似的情况,很多网站内容在不知情的情况下被大量抓取内容用来训练AI,这已经是司空见惯了,但这些AI每次进来的时候,总会影响服务器,导致服务器因为这些AI爬虫而CPU爆满,影响访问。
为此,主机磅推荐使用WEB应用防火墙进行拦截处理,比如百度云防护不仅支持自定义UA拦截,还支持bot防护功能,可有效阻止AI机器人恶意抓取网站内容。