機器學習學習小結(2)

1. 相比於學習小結中的(1)中所說的類型,這裏涉及常用的文本文章中的詞袋法和TF-IDF。 1)詞袋法:文本中出現的詞條及其出現次數。 例如單詞A、B、C...,怎麼得到對應的出現頻率呢?有兩種方法: a)在整個文檔中考慮所有的詞彙,得到每個詞彙出現的次數,計算頻率; b)只在對應領域內的專業詞彙的範圍內考慮,得到在該範圍內對應詞彙出現的頻率。 將次數/頻率及對應的單詞以字典的形式進行表示。 優
相關文章
相關標籤/搜索