simhash 文本相似度計算

常見文本相似度計算方法: 1、 向量空間模型VSM(Vector Space Model)。使用VSM計算相似度,先對文本進行分詞,然後建立文本向量,把相似度的計算轉換成某種特徵向量距離的計算,比如餘弦角、歐式距離、Jaccard相似係數等。這種方法存在很大一個問題:需要對文本兩兩進行相似度比較,無法擴展到海量文本的處理。 使用介紹可以參考 Corpora and Vector Spaces, 以
相關文章
相關標籤/搜索