常見文本相似度計算方法簡介

0引言 在自然語言處理任務中,我們經常需要判斷兩篇文檔是否相似、計算兩篇文檔的相似程度。比如,基於聚類算法發現微博熱點話題時,我們需要度量各篇文本的內容相似度,然後讓內容足夠相似的微博聚成一個簇;在問答系統中,我們會準備一些經典問題和對應的答案,當用戶的問題和經典問題很相似時,系統直接返回準備好的答案;在監控新聞稿件在互聯網中的傳播情況時,我們可以把所有和原創稿件相似的文章,都看作轉發,進而刻畫原
相關文章
相關標籤/搜索