使用BloomFilter優化scrapy-redis去重

使用BloomFilter優化scrapy-redis去重 1. 背景 作爬蟲的都知道,scrapy是一個很是好用的爬蟲框架,可是scrapy吃內存很是的厲害。其中有個很關鍵的點就在於去重。 「去重」須要考慮三個問題:去重的速度和去重的數據量大小,以及持久化存儲來保證爬蟲可以續爬。 去重的速度:爲了保證較高的去重速度,通常是將去重放到內存中來作的。例如python內置的set( ),redis的s
相關文章
相關標籤/搜索