Latent Dirichlet Allocation 文本分類主題模型

時間 2021-01-13

原文原文鏈接

文本提取特徵常用的模型有： 1. Bag-of-words：最原始的特徵集，一個單詞/分詞就是一個特徵。往往一個數據集就會有上萬個特徵；有一些簡單的指標可以幫助篩選掉一些對分類沒幫助的詞語，例如去停詞，計算互信息熵等等，但不管怎麼訓練，特徵維度都很大，每個特徵的信息量太小； 2. 統計特徵：包括Term frequency(TF) , Inverse document frequency(IDF)

>>阅读原文<<