基於Redis的Bloomfilter去重(附代碼)

前言 「去重」是日常工作中會經常用到的一項技能,在爬蟲領域更是常用,並且規模一般都比較大。去重需要考慮兩個點:去重的數據量、去重速度。爲了保持較快的去重速度,一般選擇在內存中進行去重。 數據量不大時,可以直接放在內存裏面進行去重,例如python可以使用set()進行去重。 當去重數據需要持久化時可以使用redis的set數據結構。 當數據量再大一點時,可以用不同的加密算法先將長字符串壓縮成16/
相關文章
相關標籤/搜索