【文本相似度計算】總結篇

先留位   文本相似度概念: Sim(A,B)=logP(common(A,B))/logP(description(A,B))  其中, common(A,B)是A和B的共性信息, description(A,B)是描述A和B的全部信息, 公式表達出相似度與文本共性成正相關。 文本相似度計算方法分類如下: 基於字符串的計算方法: 該方法從字符串匹配度出發, 以字符串共現和重複程度爲相似度的衡量標
相關文章
相關標籤/搜索