衡量文檔相似性的一種方法-----詞移距離 Word Mover's Distance

轉載:https://blog.csdn.net/qrlhl/article/details/78512598 問題的提出 假如現在有一個任務,是判斷兩段文本之間的相似性,那我們應該怎麼做呢?一個很自然的想法是用word2vec對兩段文本的詞向量化,然後再利用歐氏距離或者餘弦相似性進行求解。不過這種方法有着致命的缺陷,即無法從文檔整體上來考慮相似性,僅僅是基於詞,這就造成了很大的信息缺失問題,下面
相關文章
相關標籤/搜索