From Word Embeddings To Document Distances 閱讀筆記

本文主要解決文本相似度問題,在word2vec, BOW的基礎上提出了WMD模型(Word Mover’s Distance),主要思想是將A文檔中的每個詞,通過最小距離的轉移到B文檔中對應的詞,最終將每個距離相加,作爲衡量兩個文檔的距離。WMD是無超參數的,而且可解釋性高。在一些nlp任務中取得了不錯效果。 背景介紹: 解決這類問題的常見思路如下: 文檔最常用的兩種表示方式BOW和TF-IDF。
相關文章
相關標籤/搜索