SparkMLLib中基於DataFrame的TF-IDF

時間 2021-01-13

原文原文鏈接

一簡介假如給你一篇文章，讓你找出其關鍵詞，那麼估計大部分人想到的都是統計這個文章中單詞出現的頻率，頻率最高的那個往往就是該文檔的關鍵詞。實際上就是進行了詞頻統計TF(Term Frequency，縮寫爲TF)。但是，很容易想到的一個問題是:「的」「是」這類詞的頻率往往是最高的對吧？但是這些詞明顯不能當做文檔的關鍵詞，這些詞有個專業詞叫做停用詞(stop words)，我們往往要過濾掉這些詞。