360搜索“后羿算法”打击恶意采集站点
360 搜索秉承“保护原创+控制采集”的原则。针对这一典型采集泛滥的现象,基于业界领先的安全大数据和大规模机器学习平台,研发和上线了“后羿算法”:对低劣的采集站点加以控制,对原创和稀缺性网页进行保护和提权,同时确保新闻网站之间正常的转载行为不受影响。
后羿算法解读
互联网的快速发展离不开原创和稀缺的优质资源,而通过我们近期的数据分析和用户反馈发现,部分网站采取疯狂而低劣的采集手段,短时间内拼凑出大量低质量采集网页。这种行为使得互联网上内容拼接、偷换标题、过多垃圾广告等低质量的网页逐渐泛滥,不仅严重影响了正常用户的浏览体验,同时也导致优质原创内容无法优先展现,对用心构建原创和精品内容的网站也造成了一定的伤害。
“后羿算法”上线后,对于内容丰富的优质网页(如原创、稀缺资源、精心编辑的内容页等),会增加其在用户面前展现的机会;对于滥用采集手段的行为(如整站大规模采集,页面内容拼凑、含有大量广告干扰用户阅读、恶劣弹窗跳转、大量堆砌无关热词、站内搜索结果页等),会显著降低其展现机会和网页收录量。
360 搜索将矢志不移地与无数专心做好站的站长共同建设良好的互联网生态环境,如果对网站采集判定结果及收录状况存在异议,站长可以通过站长平台的反馈中心及 360 搜索论坛版主进行反馈:
后羿算法 2.0 升级公告 (2017.9.7)
基于对恶劣采集行为的持续打击,我们近日对“后羿算法”进行了版本升级!秉承既有“保护原创+控制采集”的原则,严厉打击以恶劣采集为内容主要来源的网站,情节严重站点将会剔除索引!并且,与此类作弊站点有关联的其他站点,也将会受到不同程度的影响。
本次“后羿算法 2.0”升级,针对的问题包括但不限于如下类别:
- 页面标题与正文语义不一致,页面内容用机器批量构造;
- 站点内容存在淫秽低俗等诱导倾向;
- 页面排版混乱,存在多幅广告,巨型广告、弹窗过多等站点;
- 未经授权的采集和盗图;
- 导购类和网购类站点的关键词堆砌和采集行为;
- 页面内容与站点主营业务无关;
- 由建站程序批量制造的垃圾站;
360 搜索将致力于为网民提供安全可信的搜索结果。我们在此诚邀广大站长与我们积极携手,不断提升自身站点的原创内容覆盖度,通过产出高质量原创内容来体现站点自身价值,构建互联网内容良性生态环境。