字符串匹配算法之SimHash算法

  由於實驗室和互聯網基本沒啥關係,也就從來沒有關注過數據挖掘相關的東西。在實際工作中,第一次接觸到匹配和聚類等工作,雖然用一些簡單的匹配算法可以做小數據的聚類,但數據量達到一定的時候就束手無策了。   所以,趁着週末把這方面的東西看了看,做個筆記。 來歷   google的論文「detecting near-duplicates for web crawling」--------simhash。
相關文章
相關標籤/搜索