最近各大搜索引擎深受采集站毒害,在论坛上,很多站长也都在讨论如何采集,甚至有站长出采集教程,教大家采集,还有专门的采集软件工具。主机吧查了下,之所以采集这么受欢迎,是因为采集的效果好,很多网站一天啥也不干,专门采集别的网站的内容,流量就花花的来。
当大家都在讨论采集的时候,也就是采集最危险的时候。
这不,最近搜狗就推出了打击采集的算法。
为促进搜索内容生态健康发展,保障用户的浏览体验,搜索将于6月17日推出石破算法。该算法旨在对包含恶劣采集行为的链接、网站进行识别,根据网站作弊程度落实相应的清洗打压措施。恶劣采集标准解读与示例如下,烦请合作方自查并于算法上线前完成全面整改。
1. 内容逻辑混乱:采集不同文章进行拼凑或相同文章的重复片段堆叠成一篇文章,文章前后无逻辑关系,致使用户理解困难;

图1.1 正文内无相关关系

图1.2 内容重复堆叠
2. 内容结构混乱:采集后未进行编辑导致的文章排版混乱、无关信息冗杂、功能丢失等问题,难以为用户提供有效信息;

图2.1 缺少问答结构
3. 网站由大量采集内容构成:网站缺少原创/独有内容,即多为批量采集并未进行编辑整理的内容,整体内容质量较低 ;

图3.1 相同采集内容反复应用

图3.2 批量生成文章配图
4. 跨领域采集:网站采集大量与主要经营领域无关内容用以获取流量的行为也会被判定为恶劣采集;

图4.1 主营设计领域网站采集大量无关内容
百度的很久之前就是打击采集的算法,不过效果不是很好,如果采集还在疯狂的话,相信要不了多久,百度一定会升级算法的。