機器學習主題模型之LSA、pLSA、NMF

時間 2020-12-30

原文原文鏈接

一、主題模型（Topic Model）判斷文檔相似性的傳統方法是通過查看兩個文檔共同出現的詞項（terms，不重複的words）有多少，如TF-IDF等。但這種方法沒有考慮到文字背後的語義關聯，可能在兩個文檔共同出現的詞項很少甚至沒有，但兩個文檔是相似的。主題模型是用來在大量文檔中發現潛在主題的一種統計模型。如果一篇文章有一箇中心思想，那麼一些特定詞語會出現

>>阅读原文<<