文本指紋 自動判斷文章是否抄襲

最簡單的文本相似性計算方法可以利用空間向量模型,計算分詞後的文本的特徵向量的相似性,這種方法存在效率的嚴重弊端,無法針對海量的文本進行兩兩的相似性判斷。模仿生物學指紋的特點,對每個文本構造一個指紋,來作爲該文本的標識,從形式上來看指紋一般爲固定長度較短的字符串。 最簡單的指紋構造方式就是計算文本的md5或者sha哈希值,但易發生「雪崩效應」,極小的文本差異通過md5或者sha計算出來的指紋就會不同
相關文章
相關標籤/搜索