Claude AI网络爬虫大量抓取某公司网站惹众怒

最近,主机邦一直在说拦截恶意爬虫的事情,最近有一家AI公司,就因为大量爬取别人网站而惹众怒。

起因是Claude的AI爬虫不仅无视网站的禁止抓取协议,而且还大量爬虫该网站上百万次,导致该网站直接瘫痪了。这家“受害者”公司其实有尽力防御了,但阻止失败,内容数据还是被Claude强行抓取了。

因此,该网站负责为此还怒喷Claude。

Claude AI网络爬虫大量抓取某公司网站惹众怒插图

被抓取的这家公司叫做iFixit,是一家美国电子商务和操作指南网站。
iFixit的业务的一部分,是为消费电子产品和小工具提供类维基百科的免费在线维修指南。
网站内有数百万个页面,包括修理指南、指南的修订历史、博客、新闻帖子和研究、论坛、社区贡献的修理指南和问答部分等。
但,iFixit突然发现,Claude的爬虫程序ClaudeBot在几个小时内,每分钟都有数千次请求访问。
这约等于一天内访问其网站近百万次。
据统计,它一天内访问了10 TB的文件,整个5月份总计访问了73 TB。

其实国内也有类似的情况,很多网站内容在不知情的情况下被大量抓取内容用来训练AI,这已经是司空见惯了,但这些AI每次进来的时候,总会影响服务器,导致服务器因为这些AI爬虫而CPU爆满,影响访问。

为此,主机磅推荐使用WEB应用防火墙进行拦截处理,比如百度云防护不仅支持自定义UA拦截,还支持bot防护功能,可有效阻止AI机器人恶意抓取网站内容。

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
在线客服
主机帮
我们将24小时内回复。
2025-01-18 19:07:34
您好,有任何疑问请与我们联系!
您的工单我们已经收到,我们将会尽快跟您联系!
[QQ客服]
176363189
当幸福来敲门
[小黄]
17307799197
[企业邮箱]
sudu@yunjiasu.cc
取消

选择聊天工具: