一、引言
网络爬虫,作为互联网信息检索的重要工具,其种类和数量繁多。本文旨在深入介绍主流搜索引擎和工具的爬虫,并重点提供它们的用户代理(UA)字符串,以帮助网站管理员更好地识别和管理这些爬虫。
二、主流网络爬虫蜘蛛及其UA字符串
- Googlebot(谷歌爬虫)
- 简介:Googlebot是谷歌的搜索引擎蜘蛛,其市场份额占据主导地位。
- UA字符串示例:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
- Bingbot(必应爬虫)
- 简介:Bingbot是微软的搜索引擎蜘蛛,与Windows操作系统深度融合,提供多种搜索服务。
- UA字符串示例:Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
- Baiduspider(百度爬虫)
- 简介:Baiduspider是百度搜索引擎的蜘蛛,用于爬取和索引网页内容。
- UA字符串示例:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
- Bytespider(头条搜索爬虫)
- 简介:Bytespider是字节跳动旗下头条搜索的爬虫,用于爬取网页内容以支持头条搜索服务。
- UA字符串示例(PC端):Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
- UA字符串示例(Android端):Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
- UA字符串示例(iOS端):Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Version/7.0 Mobile/11D167 Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
- 其他主流爬虫
- Yisouspider(神马搜索爬虫):UA字符串通常包含”Yisouspider”关键词。
- YandexBot(Yandex搜索引擎爬虫):俄罗斯搜索巨头Yandex的蜘蛛,UA字符串通常包含”YandexBot”关键词。
- 360Spider(360搜索爬虫):360搜索引擎的蜘蛛,用于爬取网页以支持360搜索服务。
- PetalBot(华为花瓣搜索爬虫):华为自研搜索引擎的爬虫,符合Internet机器人协议。
- Sogou web spider(搜狗搜索爬虫):搜狗搜索引擎的蜘蛛,用于爬取网页内容。
- AhrefsBot:国外网络营销类网站的爬虫,主要用于SEO分析和监控。
- SemrushBot:SEMrush的蜘蛛爬虫,提供搜索引擎优化数据。
- BLEXBot:WebMeUp的蜘蛛爬虫,用于收集反向链接数据。
- AdsBot:谷歌Google AdWords的蜘蛛,用于广告联盟相关服务。
- MJ12bot:Majestic搜索引擎营销的爬虫,专注于外链查询。
- DotBot:Moz的网络爬虫程序,用于分析网站SEO外链数据。
- Applebot:Apple推出的网络爬虫工具,用于Siri建议和聚焦建议等产品。
- CCbot:Common Crawl Bot,非营利性基金会提供的Web爬网数据开放存储库。
- DuckDuckGoBot:DuckDuckGo搜索引擎的爬虫,强调用户隐私权保护。
- yacybot:Yacy搜索引擎的蜘蛛。
- DataForSeoBot:DataForSEO网站的蜘蛛,提供高质量SEO数据。
三、如何屏蔽无用爬虫
- 识别并屏蔽无用爬虫
- 通过分析网站日志,了解哪些爬虫对网站无贡献或带来负面影响。
- 利用百度云防护Web应用防火墙拦截特定UA关键词,如MJ12bot