Scrapy如何藉助於BloomFilter實現增量爬取

1、增量爬取的思路:即保存上一次狀態,本次抓取時與上次比對,若是不在上次的狀態中,便視爲增量,保存下來。對於scrapy來講,上一次的狀態是抓取的特徵數據和上次爬取的 request隊列(url列表),request隊列能夠經過request隊列能夠經過scrapy.core.scheduler的pending_requests成員獲得,在爬蟲啓動時導入上次爬取的特徵數據,而且用上次request
相關文章
相關標籤/搜索