根据一项由路透社研究所进行的调查,截至2023年底,全球10个国家的近一半(48%)的热门新闻网站已经屏蔽了OpenAI的爬虫。这项研究覆盖了多个国家和地区,结果显示,北半球的新闻媒体更倾向于阻止人工智能爬虫。例如,在美国,79%的顶级在线新闻网站屏蔽了OpenAI的爬虫,而在墨西哥和波兰,只有20%的网站这样做。
OpenAI的爬虫,名为GPTBot,主要用于收集互联网上的数据以训练其大型语言模型,例如ChatGPT。然而,随着越来越多的新闻网站开始屏蔽OpenAI的爬虫,OpenAI可能会面临数据获取的问题。
这项研究还发现,几乎所有屏蔽Google AI的网站也都屏蔽了OpenAI(97%)。这可能暗示OpenAI在Google之前发布其爬虫程序可能对此有所贡献。
值得注意的是,一旦网站决定屏蔽OpenAI或Google AI的爬虫,几乎没有网站会改变立场,解除屏蔽。这可能是由于新闻出版商担心人工智能爬虫可能会侵犯他们的权益,或者担心他们的内容被用于未经授权的目的。
总的来说,这项研究揭示了新闻网站对人工智能爬虫的态度,并可能预示着未来OpenAI和其他人工智能公司在获取数据时面临的挑战。