計算文本類似度的幾種方法

  傑卡德(Jaccard)類似係數   這種類似度計算方式相對簡單,原理也易於理解,就是計算單詞集合之間的交集和並集大小的比例,該值越大,表示兩個文本越類似。在涉及到大規模並行計算時,該方法效率上有必定的優點。 Jaccard 類似度公式: 舉例: 句子A:「我喜歡看電視,不喜歡看電影。」 句子B:「我不喜歡看電視,也不喜歡看電影。」  分詞去噪後:A=(我,喜歡,看,電視,電影,不)  B=(
相關文章
相關標籤/搜索