計算文本相似度

不僅要考慮語義,還要考慮順序。 計算距離的方式:餘弦,歐式 1.向量表示 (1)Distributed representation 最大的貢獻就是讓相關或者相似的詞,在距離上更接近了。 (2)word2vec模型: 通過神經網絡機器學習算法來訓練N-gram 語言模型,並在訓練過程中求出word所對應的vector的方法。利用了詞的上下文,語義信息更爲豐富. 由於文本的長度各異,我們可能需要利用
相關文章
相關標籤/搜索