周末,给客户做爬虫封禁处理,总结了下以下几个非常频繁的恶意爬虫,大家可以看着封禁,只有好处,没有坏处。
以下是关于这些爬虫的介绍:
GPTBot
- 开发商:OpenAI
- 发布时间:2023年8月7日
- 功能特点:GPTBot是OpenAI推出的一款网络爬虫机器人,该工具能够在注重版权的基础上,使用透明的方式收集网页信息,来训练OpenAI旗下的各AI模型。和其他所有网络爬虫一样,它从互联网上搜集能够用于训练AI模型的有用数据,但不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。
AmazonBot
- 所属公司:亚马逊公司
- 功能特点:AmazonBot是亚马逊不同广告服务部门使用的爬虫,包括Amazon AdBot等,用于确定网站的内容,以便提供相关和适当的广告。它只抓取亚马逊或广告商合作伙伴可能提供广告的网站,并遵守robots.txt协议。此外,AmazonBot还用于改善亚马逊的其他服务,例如使Alexa能够回答更多客户的问题。
PanguBot
- 开发商:华为
- 功能特点:PanguBot 是由华为公司开发的一个爬虫,主要用于下载训练数据,以支持其多模态大型语言模型(LLM)PanGu 的训练。PanguBot 的设计目标是通过继承预训练语言模型(PLM)PANGU-alpha 的宝贵语言能力和知识,以相对较少的数据和计算成本构建强大的对话模型。
BLEXBot
- 开发商:WebMeUp
- 功能特点:BLEXBot是WebMeUp的蜘蛛爬虫,每天可以抓取上百亿个页面来收集反向链接数据,并将该数据提供给其链接索引(在SEO SpyGlass中使用的链接索引)。它是美国的一家外链反向链接查询工具网站所使用的爬虫。
DataForSeoBot
- 开发商:DataForSEO
- 功能特点:DataForSeoBot是DataForSEO网站的蜘蛛,旨在向世界各地的SEO爱好者和专业人士提供高质量的数据。它的使命是通过确保SEO社区的每个成员都能访问Google排名算法的核心元素来公平竞争。DataForSEO机器人正在开发网络上最大的可用反向链接数据库。
SemrushBot
- 开发商:Semrush
- 功能特点:SemrushBot是Semrush发送的用于发现和收集新的和更新的Web数据的搜索机器人软件。它收集的数据用于维护公共反向链接搜索引擎索引、站点审核工具、反向链接审核工具、链接构建工具等多个SEO相关工具。SemrushBot的抓取过程从网页URL列表开始,根据一组Semrush策略重复访问,以有效映射站点以进行更新。