Simhash的生成及存儲

一、背景介紹 根據 Detecting Near-Duplicates for Web Crawling 論文中的介紹,在互聯網中有很多網頁的內容是一樣的,但是它們的網頁元素卻不是完全相同的。每個域名下的網頁總會有一些自己的東西,比如廣告、導航欄、網站版權之類的東西,但是對於搜索引擎來講,只有內容部分纔是有意義的,雖然網頁元素不同,但是對搜索結果沒有任何影響,所以在判定內容是否重複的時候,應該忽視
相關文章
相關標籤/搜索