[NLP] 中文文本類似度實戰

原文: https://blog.csdn.net/github_36326955/article/details/54891204git 1. 計算文本類似度的經常使用算法 (1) 基於詞向量: 餘弦類似度, 曼哈頓距離, 歐幾里得距離, 明式距離(是前兩種距離測度的推廣) (2) 基於字符: 編輯距離, simhash(適用於海量數據), 共有字符數(有點相似 onehot 編碼, 直接統計兩
相關文章
相關標籤/搜索