OpenAI 爬虫 gptbot 频繁抓取人体3D模型网站导致网站瘫痪

近日，乌克兰一家专注于人体3D模型的网站 Trilegangers 遭遇了严重的流量攻击，导致其服务器瘫痪。该网站为3D艺术家和游戏开发者提供丰富的人体3D模型数据，但因 OpenAI 的爬虫 GPTBot 的频繁抓取而陷入困境。

据 Trilegangers 的工作人员透露，尽管网站在使用协议中明确禁止未经授权的抓取和使用，但由于未正确设置 robots.txt 文件来阻止爬虫的访问，最终导致服务器负荷过重。根据服务器日志，OpenAI 的 GPTBot 爬虫通过600多个不同的IP地址发起了数以万计的请求，使得网站无法正常运作，类似于遭遇了分布式拒绝服务（DDoS）攻击。

OpenAI 在其爬虫说明中提到，若网站不希望 GPTBot 抓取内容，需在 robots.txt 文件中进行设置。然而，Trilegangers 并未意识到这一点，从而导致了当前的窘境。尽管 robots.txt 文件并不是法律要求，但如果网站已经声明禁止未经授权使用，GPTBot 的抓取行为仍可能违反相关规定。

此外，由于使用亚马逊 AWS 服务器，Trilegangers 在带宽和流量上的消耗也急剧上升，给其带来了额外的费用压力。为应对这一突发事件，Trilegangers 已经采取措施，设置了正确的 robots.txt 文件，并通过 Web应用防火墙屏蔽了包括 GPTBot 在内的多种爬虫的访问，这一做法预计将有效缓解服务器负担，保障网站的正常运作。

OpenAI 爬虫的UA为：

Mozilla/5.0 (compatible; GPTBot/1.0; https://openai.com/gptbot)

我们可以利用百度云防护Web应用防火墙，拦截包含gptbot的UA。

{{userData.name}}已认证

IBM云服务出现故障 导致全球多个客户网站瘫痪

亚马逊 AWS 云服务故障导致Disney+等多个网站和服务瘫痪

OpenAI 起诉“open.ai ”域名所有者商标侵权，网站名为“Open AI”

近一半热门新闻网站屏蔽了 OpenAI 爬虫

选择聊天工具：

IBM云服务出现故障导致全球多个客户网站瘫痪