##TF-IDF文檔
TF(詞頻): 假定存在一份有N個詞的文件A,其中‘明星‘這個詞出現的次數爲T。那麼 TF = T/N;文件
因此表示爲: 某一個詞在某一個文件中出現的頻率.習慣
TF-IDF(詞頻-逆向文件頻率): 表示的詞頻和逆向文件頻率的乘積.
好比: 假定存在一份有N個詞的文件A,其中‘明星‘這個詞出現的次數爲T。那麼 TF = T/N; 而且‘明星’這個詞,在W份文件中出現,而總共有X份文件,那麼
IDF = log(X/W) ;
而: TF-IDF = TF * IDF = T/N * log(X/W); 咱們發現,‘明星’,這個出如今W份文件,W越小 TF-IDF越大,也就是這個詞越有多是該文檔的關鍵字,而不是習慣詞(相似於:‘的’,‘是’,‘不是’這些詞),
而TF越大,說明這個詞在文檔中的信息量越大.