文本類似度的計算

文本類似度的計算方法有不少,這裏簡單記錄一下code

傳統的VSM模型:文檔

計算文本類似度的時候主要是使用tfidf來協助生成文檔向量
整個文檔集合有多少詞,就是多少維度
每一個文檔中的詞用tfidf來生成權重,用權重來表示文檔的向量
生成向量後,就能夠計算類似度了,用夾角餘弦
固然這裏詞的權重的生成方式還有不少,也能夠用其餘的

LSI(Latent semantic indexing) 的方式方法

這個的方式也比較簡單,主要是先生成文檔 - 詞矩陣
矩陣中的內容就是文檔中出現該詞的頻數
而後用svd分解矩陣獲得三個矩陣
C = USV
而後每一個文檔向量分別和USV相乘獲得向量
文本類似度計算仍是夾角餘弦
至於下降維度,就要對S進行奇異值削減了
相關文章
相關標籤/搜索