tfidf

時間 2021-01-02

原文原文鏈接

tfidf包括兩部分：tf：詞語在文檔中出現的次數，idf中的df是在整個語料庫中有多少篇文檔包含了該詞語，其中的i是逆的意思，核心思想是：如果一個詞在某篇文檔中出現的次數多並且包含該詞語的文檔少，那麼這個詞語很重要。如果一個詞在很多個文檔中都出現，那麼說明這個詞只是個高頻詞，沒有意義（例如：「的」這個字）。 tfidf有很多變種，可以參考下面圖表。上圖的出處：https://rare-tech