關於TF(詞頻) 和TF-IDF(詞頻-逆向文件頻率 )的理解

 ##TF-IDF文檔

TF(詞頻):  假定存在一份有N個詞的文件A,其中‘明星‘這個詞出現的次數爲T。那麼 TF = T/N;文件

因此表示爲: 某一個詞在某一個文件中出現的頻率.習慣

 

TF-IDF(詞頻-逆向文件頻率):  表示的詞頻和逆向文件頻率的乘積.

好比:  假定存在一份有N個詞的文件A,其中‘明星‘這個詞出現的次數爲T。那麼 TF = T/N;  而且‘明星’這個詞,在W份文件中出現,而總共有X份文件,那麼

IDF = log(X/W) ;

而: TF-IDF =  TF *  IDF = T/N * log(X/W);   咱們發現,‘明星’,這個出如今W份文件,W越小 TF-IDF越大,也就是這個詞越有多是該文檔的關鍵字,而不是習慣詞(相似於:‘的’,‘是’,‘不是’這些詞),

而TF越大,說明這個詞在文檔中的信息量越大.

相關文章
相關標籤/搜索