NLP文本分類--詞向量

時間 2020-12-30

原文原文鏈接

1.基於規則，對於要提取的分類維護一個dict,在dict裏面保存需要提取的關鍵詞，存在關鍵詞的對應標記爲分類；（缺點，不斷的去維護詞典） 2.基於機器學習：HMM(分詞最常用的)，CRF,SVM,LDA,CNN 3.詞袋模型：bag of word :(one hot)一種是統計詞頻和位置，一種是隻存儲是否出現；（缺點很明顯，只有詞出現信息，對於詞的重要度完全沒有體現） 4.tf-idf：先考慮

>>阅读原文<<