OpenAI 爬虫 gptbot 频繁抓取人体3D模型网站 导致网站瘫痪

近日,乌克兰一家专注于人体3D模型的网站 Trilegangers 遭遇了严重的流量攻击,导致其服务器瘫痪。该网站为3D艺术家和游戏开发者提供丰富的人体3D模型数据,但因 OpenAI 的爬虫 GPTBot 的频繁抓取而陷入困境。

据 Trilegangers 的工作人员透露,尽管网站在使用协议中明确禁止未经授权的抓取和使用,但由于未正确设置 robots.txt 文件来阻止爬虫的访问,最终导致服务器负荷过重。根据服务器日志,OpenAI 的 GPTBot 爬虫通过600多个不同的IP地址发起了数以万计的请求,使得网站无法正常运作,类似于遭遇了分布式拒绝服务(DDoS)攻击。

OpenAI 爬虫 gptbot 频繁抓取人体3D模型网站 导致网站瘫痪插图

OpenAI 在其爬虫说明中提到,若网站不希望 GPTBot 抓取内容,需在 robots.txt 文件中进行设置。然而,Trilegangers 并未意识到这一点,从而导致了当前的窘境。尽管 robots.txt 文件并不是法律要求,但如果网站已经声明禁止未经授权使用,GPTBot 的抓取行为仍可能违反相关规定。

此外,由于使用亚马逊 AWS 服务器,Trilegangers 在带宽和流量上的消耗也急剧上升,给其带来了额外的费用压力。为应对这一突发事件,Trilegangers 已经采取措施,设置了正确的 robots.txt 文件,并通过 Web应用防火墙 屏蔽了包括 GPTBot 在内的多种爬虫的访问,这一做法预计将有效缓解服务器负担,保障网站的正常运作。

OpenAI 爬虫的UA为:

Mozilla/5.0 (compatible; GPTBot/1.0; https://openai.com/gptbot)

我们可以利用百度云防护Web应用防火墙,拦截包含gptbot的UA。

OpenAI 爬虫 gptbot 频繁抓取人体3D模型网站 导致网站瘫痪插图1

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
在线客服
主机邦
我们将24小时内回复。
2025-02-23 01:59:54
您好,有任何疑问请与我们联系!
您的工单我们已经收到,我们将会尽快跟您联系!
[QQ客服]
176363189
suduwangluo
[小黄]
17307799197
[企业邮箱]
sudu@yunjiasu.cc
取消

选择聊天工具: