做站這么久感觸最深的就是原創(chuàng )文章在搜索引擎的眼里越來(lái)越重要。本人負責幾個(gè)企業(yè)站的seo日常優(yōu)化工作,其中一個(gè)站本來(lái)日均ip都在兩三千,可由于某段時(shí)間網(wǎng)站內容質(zhì)量不過(guò)關(guān),導致網(wǎng)站被降權,長(cháng)尾關(guān)鍵詞的流量一下子去了一大半,網(wǎng)站流量也是差了近半。隨著(zhù)本人努力的原創(chuàng ),站點(diǎn)現在表現良好逐漸恢復穩定。在這個(gè)“內容為王”的時(shí)代,想要網(wǎng)站在搜索引擎中有好的表現,就必須在內容上苦下功夫。
可是眾多seo人員深有體會(huì ),持久保持原創(chuàng )內容的建設并不是一件容易的事。于是偽原創(chuàng )、抄襲等各類(lèi)招數就被站長(cháng)們紛紛用上,這些方法真的有效還是自欺欺人?今天筆者就和大家一起分享搜索引擎對于重復內容判定方面的知識。
一、搜索引擎為何要積極處理重復內容?
1、節省爬取、索引、分析內容的空間和時(shí)間
用一句簡(jiǎn)單的話(huà)來(lái)講就是,搜索引擎的資源是有限的,而用戶(hù)的需求卻是無(wú)限的。大量重復內容消耗著(zhù)搜索引擎的寶貴資源,因此從成本的角度考慮必須對重復內容進(jìn)行處理。
2、有助于避免重復內容的反復收集
從已經(jīng)識別和收集到的內容中匯總出最符合用戶(hù)查詢(xún)意圖的信息,這既能提高效率,也能避免重復內容的反復收集。
3、重復的頻率可以作為優(yōu)秀內容的評判標準
既然搜索引擎能夠識別重復內容當然也就可以更有效的識別哪些內容是原創(chuàng )的、優(yōu)質(zhì)的,重復的頻率越低,文章內容的原創(chuàng )優(yōu)質(zhì)度就越高。
4、改善用戶(hù)體驗
其實(shí)這也是搜索引擎最為看重的一點(diǎn),只有處理好重復內容,把更多有用的信息呈遞到用戶(hù)面前,用戶(hù)才能買(mǎi)賬。
二、搜索引擎眼中重復內容都有哪些表現形式?
1、格式和內容都相似。這種情況在電商網(wǎng)站上比較常見(jiàn),盜圖現象比比皆是。
2、僅格式相似。
3、僅內容相似。
4、格式與內容各有部分相似。這種情況通常比較常見(jiàn),尤其是企業(yè)類(lèi)型網(wǎng)站。
三、搜索引擎如何判斷重復內容?
1、通用的基本判斷原理就是逐個(gè)對比每個(gè)頁(yè)面的數字指紋。這種方法雖然能夠找出部分重復內容,但缺點(diǎn)在于需要消耗大量的資源,操作速度慢、效率低。
2、基于全局特征的I-Match
這種算法的原理是,將文本中出現的所有詞先排序再打分,目的在于刪除文本中無(wú)關(guān)的關(guān)鍵詞,保留重要關(guān)鍵詞。這樣的方式去重效果效果高、效果明顯。比如我們在偽原創(chuàng )時(shí)可能會(huì )把文章詞語(yǔ)、段落互換,這種方式根本欺騙不了I-Match算法,它依然會(huì )判定重復。
3、基于停用詞的Spotsig
文檔中如過(guò)使用大量停用詞,如語(yǔ)氣助詞、副詞、介詞、連詞,這些對有效信息會(huì )造成干擾效果,搜索引擎在去重處理時(shí)都會(huì )對這些停用詞進(jìn)行刪除,然后再進(jìn)行文檔匹配。因此,我們在做優(yōu)化時(shí)不妨減少停用詞的使用頻率,增加頁(yè)面關(guān)鍵詞密度,更有利于搜索引擎抓取。
4、基于多重Hash的Simhash
這種算法涉及到幾何原理,講解起來(lái)比較費勁,簡(jiǎn)單說(shuō)來(lái)就是,相似的文本具有相似的hash值,如果兩個(gè)文本的simhash越接近,也就是漢明距離越小,文本就越相似。因此海量文本中查重的任務(wù)轉換為如何在海量simhash中快速確定是否存在漢明距離小的指紋。我們只需要知道通過(guò)這種算法,搜索引擎能夠在極短的時(shí)間內對大規模的網(wǎng)頁(yè)進(jìn)行近似查重。目前來(lái)看,這種算法在識別效果和查重效率上相得益彰。