NLP文本分類--詞向量

1.基於規則,對於要提取的分類維護一個dict,在dict裏面保存需要提取的關鍵詞,存在關鍵詞的對應標記爲分類;(缺點,不斷的去維護詞典) 2.基於機器學習:HMM(分詞最常用的),CRF,SVM,LDA,CNN 3.詞袋模型:bag of word :(one hot)一種是統計詞頻和位置,一種是隻存儲是否出現;(缺點很明顯,只有詞出現信息,對於詞的重要度完全沒有體現) 4.tf-idf:先考慮
相關文章
相關標籤/搜索