SparkMLLib中基於DataFrame的TF-IDF

一 簡介 假如給你一篇文章,讓你找出其關鍵詞,那麼估計大部分人想到的都是統計這個文章中單詞出現的頻率,頻率最高的那個往往就是該文檔的關鍵詞。實際上就是進行了詞頻統計TF(Term Frequency,縮寫爲TF)。 但是,很容易想到的一個問題是:「的」「是」這類詞的頻率往往是最高的對吧?但是這些詞明顯不能當做文檔的關鍵詞,這些詞有個專業詞叫做停用詞(stop words),我們往往要過濾掉這些詞。
相關文章
相關標籤/搜索