詞頻計算方法(TF/IDF)

文本分類中,如何定義一個詞出現的頻率呢?若是僅僅用這個詞在文章中出現的次數來定義詞頻,那麼某個詞在長文件中的詞頻通常會大於這個詞在短文件中的詞頻。不能說這個詞就是長文件一個好的標識詞,爲了不這種狀況能夠使用TF來表示,TF=某詞出現次數/總詞數。還有像漢語中「的」、「地」、「咱們」等這些詞,在文章中出現的頻率很高,可是對文章分類的做用幾乎沒有,因此若是隻用TF來定義詞頻,沒法避免此類問題,能夠再定
相關文章
相關標籤/搜索