Spark機器學習:TF-IDF實現原理

先簡單地介紹下什麼是TF-IDF(詞頻-逆文檔頻率),它能夠反映出語料庫中某篇文檔中某個詞的重要性。假設t表示某個詞,d表示一篇文檔,則詞頻TF(t,d)是某個詞t在文檔d中出現的次數,而文檔DF(t,D)是包含詞t的文檔數目。爲了過濾掉經常使用的詞組,如"the" "a" "of" "that",咱們使用逆文檔頻率來度量一個詞能提供多少信息的數值: html IDF(t,D)=log(|D|+1
相關文章
相關標籤/搜索