TF-IDF(term frequency–inverse document frequency)是一種用於信息檢索與數據挖掘的經常使用加權技術。圖片
用於評估一個詞對於一個文件或者一個語料庫中的其中一份文件的重要程度。文檔
字詞的重要性隨着它在文件中出現的次數成正比增長,但同時會隨着他在語料庫中出現的頻率成反比降低。it
原理: 若是某個詞或短語在一篇文章中出現的頻率TF高,而且在其餘文章中不多出現,則認爲此詞或者短語具備很好的類別區分能力,適合用來分類。數據挖掘
TF*IDF原理
TF 詞頻 :表示詞條在文檔 d 中出現的頻率 IDF(逆向文件頻率) 包含詞條 t 的文檔越少,也就是 n 越小, IDF 越大,則說明 t 具備很好的類別區分能力。搜索
缺點:若是某一類文檔 C 中包含詞條 t 的文檔數爲 m ,其餘類包含 t 的文檔總數爲 k ,顯然全部包含 t 的文檔書 n=m+k ,當 m 大的時候,n 也大,IDF值變小,說明 詞條 t 的類別區分能力不強,可是實際上,若是某一詞條在 一個類的文檔中出現頻率較高,則該詞條可以很好的表明這個類的文本的特徵。這樣的詞條應該給予較高的權重。im
詞頻: 防止其偏向較長的文件,實現歸一化。 分子是該詞在文件中的出現次數,而分母則是在文件中全部字詞的出現次數之和。技術
或者數據
逆向文件頻率(inverse document frequency,IDF)是一個詞語廣泛重要性的度量。某一特定詞語的IDF,能夠由總文件數目除以包含該詞語之文件的數目,再將獲得的商取對數獲得:img
計算 TF*IDF
以《中國的蜜蜂養殖》爲例,假定該文長度爲1000個詞,"中國"、"蜜蜂"、"養殖"各出現20次,則這三個詞的"詞頻"(TF)都爲0.02。而後,搜索Google發現,包含"的"字的網頁共有250億張,假定這就是中文網頁總數。包含"中國"的網頁共有62.3億張,包含"蜜蜂"的網頁爲0.484億張,包含"養殖"的網頁爲0.973億張。則它們的逆文檔頻率(IDF)和TF-IDF以下: