大數據查重去重方案及性能優化

時間 2021-01-04

原文原文鏈接

最近做針對百萬級別的數據的去重工作，現抽空寫下筆記。做這個去重，是基於前同事的基礎上做改造，反正別人的代碼，大家都懂的，不符合業務，性能完全沒調優，說是做了的功能，其實也用不上。好在不是一無是處，原來是用的simHash算法做文本相似計算，上網查了下，simHash算法是相對來說，在大數據領域比較受歡迎的查重算法，話不多說，來一步步說下我的設計之路。一、先簡單介紹下simHash. 傳統的Ha

>>阅读原文<<