python使用simhash實現文本類似性對比(全代碼展現)

導入2篇文章,用結巴分詞選出權重Top10的詞語,轉化成哈希編碼,對比2篇文章的漢明距離,閾值設置爲18,漢明距離小於等於18的爲文本類似,反之不類似。另外,有沒有大神幫忙回覆下怎麼寫一個導入2篇文章的接口,謝謝。 import re import codecs import jieba import jieba.analyse import numpy as np fr1 = 'C:/User
相關文章
相關標籤/搜索