scrapy分佈式去重組件源碼及其實現過程

scrapy_redis在繼承scrapy去重組件的基礎上覆蓋了某些方法,原scrapy去重是基於單機情況下的內部去重,但是分佈式是多機條件下的多爬蟲協同去重,因此需要讓不同及其上的同一個爬蟲能夠在同一個地方進行去重,這就是Redis的集合。 先看看scrapy_redis 去重組件dupefilter的源碼: import logging import time from scrapy.dupe
相關文章
相關標籤/搜索