機器學習備忘錄之文本表示模型

詞袋模型(Bag of Words) 詞袋模型是最基礎的文本表示模型。將文章以詞爲單位切分開,忽略詞的出現順序,將文章表示成一個長向量(每一維代表一個單詞,該維的權重表示重要程度)。常用TF-IDF(Term Frequency-Inverse Document Frequency)來計算權重。 某個單詞在一篇文章中出現的頻率高,並且在其他文章中很少出現,則認爲該詞具有很好的類別區分能力,適合用來
相關文章
相關標籤/搜索