大數據查重去重方案及性能優化

最近做針對百萬級別的數據的去重工作,現抽空寫下筆記。 做這個去重,是基於前同事的基礎上做改造,反正別人的代碼,大家都懂的,不符合業務,性能完全沒調優,說是做了的功能,其實也用不上。好在不是一無是處,原來是用的simHash算法做文本相似計算,上網查了下,simHash算法是相對來說,在大數據領域比較受歡迎的查重算法,話不多說,來一步步說下我的設計之路。 一、先簡單介紹下simHash. 傳統的Ha
相關文章
相關標籤/搜索