文本相似度判定

簡介 針對文本相似判定,本文提供餘弦相似度和SimHash兩種算法,並根據實際項目遇到的一些問題,給出相應的解決方法。經過實際測試表明:餘弦相似度算法適合於短文本,而SimHash算法適合於長文本,並且能應用於大數據環境中。 餘弦相似度 原理 餘弦定理:                    圖-1 餘弦定理圖示 性質: 餘弦值的範圍在[-1,1]之間,值越趨近於1,代表兩個向量的方向越趨近於0°
相關文章
相關標籤/搜索