TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率). spa
是一種用於資訊檢索與資訊探勘的經常使用加權技術。TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增長,但同時會隨着它在語料庫中出現的頻率成反比降低。設計
上述引用總結就是, 一個詞語在一篇文章中出現次數越多, 同時在全部文檔中出現次數越少, 越可以表明該文章.blog
這也就是TF-IDF的含義.文檔
TF引用
詞頻 (term frequency, TF) 指的是某一個給定的詞語在該文件中出現的次數。這個數字一般會被歸一化(通常是詞頻除以文章總詞數), 以防止它偏向長的文件方法
可是, 須要注意, 一些通用的詞語對於主題並無太大的做用, 反卻是一些出現頻率較少的詞纔可以表達文章的主題, 因此單純使用是TF不合適的。權重的設計必須知足:一個詞預測主題的能力越強,權重越大,反之,權重越小。全部統計的文章中,一些詞只是在其中不多幾篇文章中出現,那麼這樣的詞對文章的主題的做用很大,這些詞的權重應該設計的較大。IDF就是在完成這樣的工做.im
IDF技術
逆向文件頻率 (inverse document frequency, IDF) IDF的主要思想是:若是包含詞條t的文檔越少, IDF越大,則說明詞條具備很好的類別區分能力。某一特定詞語的IDF,能夠由總文件數目除以包含該詞語之文件的數目,再將獲得的商取對數獲得。統計
公式: 總結
某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,能夠產生出高權重的TF-IDF。所以,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語