為促進(jìn)搜索內(nèi)容生態(tài)健康發(fā)展,,保障用戶的瀏覽體驗,,搜狗搜索將于6月17日推出石破算法,。該算法旨在對包含惡劣采集行為的鏈接、網(wǎng)站進(jìn)行識別,,根據(jù)網(wǎng)站作弊程度落實相應(yīng)的清洗打壓措施,。惡劣采集標(biāo)準(zhǔn)解讀與示例如下,,煩請合作方自查并于算法上線前完成全面整改。
1. 內(nèi)容邏輯混亂:采集不同文章進(jìn)行拼湊或相同文章的重復(fù)片段堆疊成一篇文章,,文章前后無邏輯關(guān)系,,致使用戶理解困難;
圖1.1 正文內(nèi)無相關(guān)關(guān)系
圖1.2 內(nèi)容重復(fù)堆疊
2. 內(nèi)容結(jié)構(gòu)混亂:采集后未進(jìn)行編輯導(dǎo)致的文章排版混亂,、無關(guān)信息冗雜,、功能丟失等問題,難以為用戶提供有效信息,;
圖2.1 缺少問答結(jié)構(gòu)
3. 網(wǎng)站由大量采集內(nèi)容構(gòu)成:網(wǎng)站缺少原創(chuàng)/獨有內(nèi)容,,即多為批量采集并未進(jìn)行編輯整理的內(nèi)容,整體內(nèi)容質(zhì)量較低 ,;
圖3.1 相同采集內(nèi)容反復(fù)應(yīng)用
圖3.2 批量生成文章配圖
4. 跨領(lǐng)域采集:網(wǎng)站采集大量與主要經(jīng)營領(lǐng)域無關(guān)內(nèi)容用以獲取流量的行為也會被判定為惡劣采集,;