文本挖掘預處理之TF-IDF

一、概念 TF-IDF(Term Frequency-Inverse Document Frequency)即「詞頻-反文檔頻率」,主要由TF和IDF兩部分組成。TF-IDF是一種用於資訊檢索與資訊探勘的常用加權技術,是一種統計方法,用於評估一個詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要程度與它在文件中出現的次數成正比,但同時與它在語料庫中出現的頻率成反比。 TF——詞頻:
相關文章
相關標籤/搜索