python專業方向 | 文本相似度計算

作者系浙江大學生物醫學工程專業的碩士在讀;專注於自然語言處理 iOS開發。 步驟 1、分詞、去停用詞 2、詞袋模型向量化文本 3、TF-IDF模型向量化文本 4、LSI模型向量化文本 5、計算相似度 理論知識 兩篇中文文本,如何計算相似度?相似度是數學上的概念,自然語言肯定無法完成,所有要把文本轉化爲向量。兩個向量計算相似度就很簡單了,歐式距離、餘弦相似度等等各種方法,只需要中學水平的數學知識。
相關文章
相關標籤/搜索