字符串匹配算法之SimHash算法

時間 2021-01-12

原文原文鏈接

　　由於實驗室和互聯網基本沒啥關係，也就從來沒有關注過數據挖掘相關的東西。在實際工作中，第一次接觸到匹配和聚類等工作，雖然用一些簡單的匹配算法可以做小數據的聚類，但數據量達到一定的時候就束手無策了。　　所以，趁着週末把這方面的東西看了看，做個筆記。來歷　　google的論文「detecting near-duplicates for web crawling」--------simhash。

>>阅读原文<<