(轉)simhash進行文本查重

有1億個不重複的64位的01字符串,任意給出一個64位的01字符串f,如何快速從中找出與f漢明距離小於3的字符串?   大規模網頁的近似查重 主要翻譯自WWW07的 Detecting Near-Duplicates for Web Crawling  WWW上存在大量內容近似相同的網頁,對搜索引擎而言,去除近似相同的網頁可以提高檢索效率、降低存儲開銷。 當爬蟲在抓取網頁時必須很快能在海量文本集中
相關文章
相關標籤/搜索