simhash中如何存儲信息等

時間 2021-01-21

原文原文鏈接

按照Charikar在論文中闡述的，64位simhash，海明距離在3以內的文本都可以認爲是近重複文本。當然，具體數值需要結合具體業務以及經驗值來確定。使用上述方法產生的simhash可以用來比較兩個文本之間的相似度。問題是，如何將其擴展到海量數據的近重複檢測中去呢？譬如說對於64位的待查詢文本的simhash code來說，如何在海量的樣本庫（>1M）中查詢與其海明距離在3以內的記錄呢

>>阅读原文<<

相關文章

相關標籤/搜索

瀏覽器信息

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<