使用LDA對文檔主題進行建模

LDA 簡介 LDA認爲一篇文檔由一些主題按照一定概率組成,一個主題又由一些詞語按照一定概率組成。早期人們用詞袋模型對一篇文章進行建模,把一篇文檔表示爲若干單詞的計數。無論是中文還是英文,都由大量單詞組成,這就造成詞袋向量的維數巨大,少則幾千多則上萬,在使用分類模型進行訓練時,非常容易造成訓練緩慢以及過擬合。LDA本質上把詞袋模型進行了降維,把一篇文檔以主題的形式進行了表示。主題的個數通常爲幾百,
相關文章
相關標籤/搜索