基於jieba分詞的TF-IDF提取關鍵詞算法中自定義所使用逆向文件頻率(IDF)的文本語料庫

TF-IDF的概念 TF(Term Frequency,縮寫爲TF)也就是詞頻,即一個詞在文中出現的次數,統計出來就是詞頻TF,顯而易見,一個詞在文章中出現很多次,那麼這個詞肯定有着很大的作用,在提取關鍵詞之前,由於待提取的語句中會有很多無用詞,例如「的」,「我」等等,所以我個人理解在提取關鍵詞之前的簡單步驟如下: 待分析語句------>分詞------>去除停用詞------>提取關鍵詞 使用
相關文章
相關標籤/搜索