文本類似度的計算方法有不少,這裏簡單記錄一下code
傳統的VSM模型:文檔
計算文本類似度的時候主要是使用tfidf來協助生成文檔向量 整個文檔集合有多少詞,就是多少維度 每一個文檔中的詞用tfidf來生成權重,用權重來表示文檔的向量 生成向量後,就能夠計算類似度了,用夾角餘弦 固然這裏詞的權重的生成方式還有不少,也能夠用其餘的
LSI(Latent semantic indexing) 的方式方法
這個的方式也比較簡單,主要是先生成文檔 - 詞矩陣 矩陣中的內容就是文檔中出現該詞的頻數 而後用svd分解矩陣獲得三個矩陣 C = USV 而後每一個文檔向量分別和USV相乘獲得向量 文本類似度計算仍是夾角餘弦 至於下降維度,就要對S進行奇異值削減了