搜索引擎是怎麼刪除重複網頁的

百度曾在站長貼吧裏做過這樣一個回覆:從用戶體驗角度,「有些轉載未必比原創差」。

比方一篇科技原創博文,被知名門戶網站的科技頻道轉載。如果這種轉載保留原創者姓名和出處鏈接,實際上對原創者是有利的,因爲起到了更好的傳播效果。只是國內的轉載,很多是掐頭去尾,使原創者比較受傷。

據資料表明近似重複網頁的數量佔網頁總數的的比較高達全部頁面的29%,而完全相同的頁面大約佔全部頁面的22%。

很多站長都會抱怨,自己寫的文章被轉載後要麼排名消失、要麼轉載站排在前面,比如下圖:

搜索引擎是怎麼刪除重複網頁的

在解決這個問題之前,我認爲有必要了解下搜索引擎的「去重算法框架」,換個角度看看搜索引擎是怎麼給網頁去重的。

你的網頁什麼時候會被刪除?

因爲互聯網上有大約22%的內容是相同的,一旦你的文章發表在網上,就有可能會被轉載,而一般判斷幫你的網頁爲轉載,那麼搜索引擎一般會從三個時間段來刪除你的網頁:

(1)抓取頁面的時候刪除,這樣可以減少搜索引擎帶寬以及減少存儲數量;

(2)收錄之後刪除重複網頁;

(3)用戶檢索時候進行再次刪除;增加準確性,耗費時間;

內容重複的4種類型:

1.如果2篇文章內容和格式上毫無差別,則這種重複叫做「完全重複頁面」

2.如果2篇文章內容相同,但是格式不同,則叫做「內容重複頁面」

3.如果2篇文章有部分重要的內容相同,並且格式相同,則稱爲「佈局重複頁面」

4.如果2篇文章有部分重要的內容相同,但是格式不同,則稱爲「部分重複頁面」

刪除重複網頁對於搜索引擎有很多好處:

1.如果這些重複網頁並從搜索引擎數據庫中去掉,就能節省一部分存儲空間,提高檢索的質量。

2.爲了提高網頁的蒐集速度,搜索引擎會對以往蒐集信息的分析,預先發現重複網頁,

在今後的網頁蒐集過程中就可以避開這些網頁,這就是爲什麼總轉載的網站排名不高的原因了。

3.對某個鏡像度較高的網頁,搜索引擎會賦予它較高的優先級,當用戶搜索時就會賦予它較高的權重。

4. 近似鏡像網頁的及時發現有利於改善搜索引擎系統的服務質量,也就是說如果用戶點擊了一個死鏈接,

那麼可以將用戶引導到一個相同頁面,這樣可以有效的增加用戶的檢索體驗。

通用去重算法框架

對於網頁去重任務,具體可以採取的技術手段五花八門,各有創新和特色,但是如果仔細研究,其實大致都差不多。

搜索引擎通用去重算法框架

上圖給出了通用算法框架的流程圖,對於給定的文檔,首先要通過一定特抽取手段,從文檔中抽取出一系列能夠表徵文檔主題內容的特徵集合。

這一步驟往往有其內在要求,即儘可能保留文檔重要信息,刪除無關信息。之所以要刪除部分信息,主要是從計算速度的角度考慮,一般來說,刪除的信息越多,計算速度會越快。

這就是爲什麼你想做的關鍵字總沒有排名,反而不想做的關鍵詞卻能排名靠前的原因之一,搜索引擎把它認爲不重要的詞語刪除了。

轉載於:https://www.cnblogs.com/mfryf/archive/2013/06/06/3122300.html