Datawhale零基礎入門NLP賽事——新聞文本分類Task3

TF-IDF    對TF-IDF的理解:           一個詞語在一篇文章中出現次數越多,在所有文檔中出現次數越少,越能代表該文章    詞頻:如果「學習」在一篇文章中出現次數爲5次,文章中所有詞語個數爲1000,那麼TF=5/1000            逆文檔頻率:「學習」在100個文檔中出現,總文檔數爲400,那麼IDF=log(400/100)            最後相乘 h
相關文章
相關標籤/搜索