關於TF(詞頻) 和TF-IDF(詞頻-逆向文件頻率 )的理解

時間 2019-11-06

標籤關於詞頻 idf 逆向文件頻率理解简体版

原文原文鏈接

##TF-IDF文檔

TF（詞頻）: 假定存在一份有N個詞的文件A，其中‘明星‘這個詞出現的次數爲T。那麼 TF = T/N;文件

因此表示爲：某一個詞在某一個文件中出現的頻率.習慣

TF-IDF(詞頻-逆向文件頻率)：表示的詞頻和逆向文件頻率的乘積.

好比：假定存在一份有N個詞的文件A，其中‘明星‘這個詞出現的次數爲T。那麼 TF = T/N; 而且‘明星’這個詞，在W份文件中出現，而總共有X份文件，那麼

IDF = log(X/W) ;

而： TF-IDF = TF * IDF = T/N * log(X/W); 咱們發現，‘明星’，這個出如今W份文件，W越小 TF-IDF越大，也就是這個詞越有多是該文檔的關鍵字，而不是習慣詞（相似於：‘的’，‘是’，‘不是’這些詞），

而TF越大，說明這個詞在文檔中的信息量越大.

相關文章

相關標籤/搜索

spark 詞頻統計

XLink 和 XPointer 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<