如何計算兩個文檔的類似度

1、TF-IDF、餘弦類似度、向量空間模型算法

(1)使用TF-IDF算法,找出兩篇文章的關鍵詞;spa

(2)每篇文章各取出若干個關鍵詞(好比20個),合併成一個集合,計算每篇文章對於這個集合中的詞的詞頻(爲了不文章長度的差別,能夠使用相對詞頻);.net

(3)生成兩篇文章各自的詞頻向量;blog

(4)計算兩個向量的餘弦類似度,值越大就表示越類似。io

2、SVD和LSI集合

LSA(潛在語義分析)的基本思路:LSA但願經過下降傳統向量空間的維度來去除空間中的「噪音」,而降維能夠經過SVD實現,所以首先對Term-Document矩陣進行SVD分解,而後降維並構造語義空間。co

(奇異值分解詳解:http://blog.csdn.net/wangzhiqing3/article/details/7446444#comments)生成

3、LDA模型

相關文章
相關標籤/搜索