[轉]文檔去重算法:SimHash和MinHash

simhash與重複信息識別 來源:http://grunt1223.iteye.com/blog/964564     在工作學習中,我往往感嘆數學奇蹟般的解決一些貌似不可能完成的任務,並且十分希望將這種喜悅分享給大家,就好比說:「老婆,出來看上帝」……  隨着信息爆炸時代的來臨,互聯網上充斥着着大量的近重複信息,有效地識別它們是一個很有意義的課題。例如,對於搜索引擎的爬蟲系統來說,收錄重複的網
相關文章
相關標籤/搜索