SimHash算法

SimHash算法可計算文本間的相似度,實現文本去重。文本相似度的計算,可以使用向量空間模型(VSM),即先對文本分詞,提取特徵,根據特徵建立文本向量,把文本之間相似度的計算轉化爲特徵向量距離的計算,如歐式距離、餘弦夾角等。但這樣做的缺點是複雜度會很高。   基於VSM的文本相似度計算,對於小量數據處理是可以的,但對於百度,google這樣的搜索引擎,爬蟲每天爬取的網頁數目大得驚人,爲了防止網頁的
相關文章
相關標籤/搜索