Latent Dirichlet Allocation 文本分類主題模型

文本提取特徵常用的模型有: 1. Bag-of-words:最原始的特徵集,一個單詞/分詞就是一個特徵。往往一個數據集就會有上萬個特徵;有一些簡單的指標可以幫助篩選掉一些對分類沒幫助的詞語,例如去停詞,計算互信息熵等等,但不管怎麼訓練,特徵維度都很大,每個特徵的信息量太小; 2. 統計特徵:包括Term frequency(TF) , Inverse document frequency(IDF)
相關文章
相關標籤/搜索