3 月 21 日消息,随着AI时代的来临,AI爬虫也越来越多,很多网站的服务器资源也越来越不够用,原因是大量的AI爬虫爬取网站内容,占用了大量的服务器资源,主机帮的一个客户就是爬虫问题,原本只需5M的带宽,结果被爬虫爬取使得服务器带宽长期运行在15M以上,为此,需要利用Web应用防火墙拦截,国内一些服务商还开发了bot防护功能,不过价格并不便宜,比如百度云防护需要企业版才支持Bot防护,而阿里云、腾讯云也有类似的功能,不过是按拦截次数收费,价格非常昂贵。
相比之下国外网络服务商 Cloudflare非常良心,当地时间本月 19 日发布了一项名为 AI Labyrinth 的有趣功能:利用 AI 生成内容以非禁止的方式干扰不遵守“禁止爬取”声明的 AI 爬虫和其它恶意内容爬取机器人。
Labyrinth 一词的含义即“迷宫”。

根据 Cloudflare 的观察,直接硬性禁止恶意爬虫容易激起爬取和反爬两方无休止的“军备竞赛”,与其陷入一场漫长的对抗中不如让爬虫“以为”得到了真实的内容实际上却一无所获。
AI Labyrinth 的具体运作方式是在页面中设置人类使用者无法看到或点击的隐藏链接,仅有恶意爬虫才会注意到它们。而这些链接指向一系列由 AI 生成的页面,爬虫的时间和资源会浪费在这些非真实网站中。
这一功能也意味仅有恶意 AI 爬虫才会陷入到 AI Labyrinth 编织的内容迷宫中,Cloudflare 能更好了解这些爬虫的行为特征,从而为机器人识别提供数据基础。
Cloudflare 表示 AI Labyrinth 向包括免费客户在内的全部使用者提供。
不过,Cloudflare虽然良心,但其的网络在国内体验并不好,不仅访问慢,而且长期被屏蔽状态,所以并不适合给国内用户访问。