tfidf

tfidf包括兩部分:tf:詞語在文檔中出現的次數,idf中的df是在整個語料庫中有多少篇文檔包含了該詞語,其中的i是逆的意思,核心思想是:如果一個詞在某篇文檔中出現的次數多並且包含該詞語的文檔少,那麼這個詞語很重要。如果一個詞在很多個文檔中都出現,那麼說明這個詞只是個高頻詞,沒有意義(例如:「的」這個字)。 tfidf有很多變種,可以參考下面圖表。 上圖的出處:https://rare-tech
相關文章
相關標籤/搜索