常見文本相似度計算方法簡介

時間 2020-12-30

標籤自然語言處理機器學習简体版

原文原文鏈接

0引言在自然語言處理任務中，我們經常需要判斷兩篇文檔是否相似、計算兩篇文檔的相似程度。比如，基於聚類算法發現微博熱點話題時，我們需要度量各篇文本的內容相似度，然後讓內容足夠相似的微博聚成一個簇；在問答系統中，我們會準備一些經典問題和對應的答案，當用戶的問題和經典問題很相似時，系統直接返回準備好的答案；在監控新聞稿件在互聯網中的傳播情況時，我們可以把所有和原創稿件相似的文章，都看作轉發，進而刻畫原

>>阅读原文<<