歐式距離、餘玄相似度、編輯距離、jaccard相似性區別與總結

在計算文本相似度的時候,通常有兩個層面,一個是基於字面的相似度,一個是基於語義的相似度,基於文本語義匹配可參考博文文本語義匹配,這裏不再贅述。在計算基於字面的文本相似性的時候,通常有歐氏距離、cosine餘弦相似度、編輯距離、jaccard相似度等方式,下面一一介紹。 餘弦相似度 餘弦距離,也稱爲餘弦相似度,是用向量空間中兩個向量夾角的餘弦值作爲衡量兩個個體間差異的大小的度量,公式如下: 餘弦距離
相關文章
相關標籤/搜索