數據挖掘 文本分類(七)特徵提取

        上一篇咱們作完了詞頻統計,下面就該提取文本特徵了。其實詞的頻率就是文本最重要的特徵了,可是咱們若是隻靠詞的頻率去判斷文本的分類的話,顯然正確率是很低的。算法         固然,文本的特徵提取有不少辦法了,我上這門課程老師着重介紹的是TF-IDF和卡方校驗兩種。spa         咱們先來看IF-IDF的計算方法:blog                 詞頻(term fr
相關文章
相關標籤/搜索