SimHash算法原理

一、什麼是SimHash SimHash算法是Google在2007年發表的論文《Detecting Near-Duplicates for Web Crawling》中提到的一種指紋生成算法,被應用在Google搜索引擎網頁去重的工作之中。 對於文本去重這個問題,常見的解決辦法有餘弦算法、歐式距離、Jaccard相似度、最長公共子串等方法。但是這些方法並不能對海量數據高效的處理。 比如說,在搜索
相關文章
相關標籤/搜索