文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)

1、LDA作用 傳統判斷兩個文檔相似性的方法是通過查看兩個文檔共同出現的單詞的多少,如TF-IDF等,這種方法沒有考慮到文字背後的語義關聯,可能在兩個文檔共同出現的單詞很少甚至沒有,但兩個文檔是相似的。 舉個例子,有兩個句子分別如下: 「喬布斯離我們而去了。」 「蘋果價格會不會降?」 可以看到上面這兩個句子沒有共同出現的單詞,但這兩個句子是相似的,如果按傳統的方法判斷這兩個句子肯定不相似,所以在判
相關文章
相關標籤/搜索