python文本類似度計算

類似度計算步驟:: 讀取要計算的多篇文檔python 對要計算的文檔進行分詞 對文檔進行整理成指定格式,方便後續計算 計算出詞語的頻率 【可選】對頻率低的詞語進行過濾 經過語料庫創建詞典 加載要對比的文檔 將要對比的文檔,經過doc2bow轉化爲稀疏向量 對咱們的稀疏向量進行進一步處理獲得新語料庫 將新語料庫經過tfidfmodel進行處理,獲得tfidf 經過token2id獲得特徵數 稀疏矩陣
相關文章
相關標籤/搜索