主題模型(概率潛語義分析PLSA、隱含狄利克雷分佈LDA)

  一、pLSA模型 1、樸素貝葉斯的分析 (1)可以勝任許多文本分類問題。 (2)無法解決語料中一詞多義和多詞一義的問題——它更像是詞法分析,而非語義分析。 (3)如果使用詞向量作爲文檔的特徵,一詞多義和多詞一義會造成計算文檔間相似度的不準確性。 (4)可以通過增加「主題」的方式,一定程度的解決上述 問題:一個詞可能被映射到多個主題中(一詞多義),多個詞可能被映射到某個主題的概率很高(多詞一義)
相關文章
相關標籤/搜索