文本挖掘學習(四) 主題模型、LDA

1.主題模型LDA(Latent Dirichlet allocation) 其基本思想是把文檔看成各種隱含主題的混合,而每個主題則表現爲跟該主題相關的詞項的概率分佈 LDA基於詞袋(bag of words)模型構建,認爲文檔和單詞都是可以交換的,忽略單詞在文檔中的順序和文檔在語料庫中的順序,從而將文本信息轉化爲易於建模的數字信息 主題就是一個桶,裏面裝了出現概率較高的單詞,這些單詞與這個主題有
相關文章
相關標籤/搜索