文本類似度的計算

時間 2019-12-08

標籤文本類似計算简体版

原文原文鏈接

文本類似度的計算方法有不少，這裏簡單記錄一下code

傳統的VSM模型：文檔

計算文本類似度的時候主要是使用tfidf來協助生成文檔向量
整個文檔集合有多少詞，就是多少維度
每一個文檔中的詞用tfidf來生成權重，用權重來表示文檔的向量
生成向量後，就能夠計算類似度了，用夾角餘弦
固然這裏詞的權重的生成方式還有不少，也能夠用其餘的

LSI(Latent semantic indexing) 的方式方法

這個的方式也比較簡單，主要是先生成文檔 - 詞矩陣
矩陣中的內容就是文檔中出現該詞的頻數
而後用svd分解矩陣獲得三個矩陣
C = USV
而後每一個文檔向量分別和USV相乘獲得向量
文本類似度計算仍是夾角餘弦
至於下降維度，就要對S進行奇異值削減了

相關標籤/搜索