自行編寫TF-IDF算法和Jieba中TF-IDF算法結果比較

任務:對10個戰略新興產業描述文檔提取特徵詞,從而建立10個產業的特徵,要求是10個產業特徵詞區分度和代表度越大越好。採用TF-IDF算法對文檔提取特徵詞,一開始使用jieba自帶tf-idf算法,結果不太理想,見下圖,每一列爲10個產業提取的特徵詞,紅色是之間有重複的情況。 分析原因:jieba的tf-idf算法tf值和idf值依託自身的詞典,所以沒有針對性。 自己編寫TF-IDF算法,效果優於
相關文章
相關標籤/搜索