Spark機器學習：TF-IDF實現原理

時間 2019-12-07

標籤 spark 機器學習 idf 實現原理欄目 Spark 简体版

原文原文鏈接

先簡單地介紹下什麼是TF-IDF(詞頻-逆文檔頻率)，它能夠反映出語料庫中某篇文檔中某個詞的重要性。假設t表示某個詞，d表示一篇文檔，則詞頻TF(t,d)是某個詞t在文檔d中出現的次數，而文檔DF(t,D)是包含詞t的文檔數目。爲了過濾掉經常使用的詞組，如"the" "a" "of" "that",咱們使用逆文檔頻率來度量一個詞能提供多少信息的數值： html IDF(t,D)=log(|D|+1

>>阅读原文<<