機器學習主題模型之LSA、pLSA、NMF

  一、主題模型(Topic Model)         判斷文檔相似性的傳統方法是通過查看兩個文檔共同出現的詞項(terms,不重複的words)有多少,如TF-IDF等。但這種方法沒有考慮到文字背後的語義關聯,可能在兩個文檔共同出現的詞項很少甚至沒有,但兩個文檔是相似的。         主題模型是用來在大量文檔中發現潛在主題的一種統計模型。如果一篇文章有一箇中心思想,那麼一些特定詞語會出現
相關文章
相關標籤/搜索