simhash算法及原理簡介

背景 如何設計一個比較兩篇文章相似度的算法?可能你會回答幾個比較傳統點的思路: 一種方案是先將兩篇文章分別進行分詞,得到一系列特徵向量,然後計算特徵向量之間的距離(可以計算它們之間的歐氏距離、海明距離或者夾角餘弦等等),從而通過距離的大小來判斷兩篇文章的相似度。 另外一種方案是傳統hash,我們考慮爲每一個web文檔通過hash的方式生成一個指紋(finger print)。 下面,我們來分析下這
相關文章
相關標籤/搜索