Scrapy如何藉助於BloomFilter實現增量爬取

時間 2020-01-13

標籤 scrapy 如何藉助於 bloomfilter 實現增量欄目 Python 简体版

原文原文鏈接

1、增量爬取的思路：即保存上一次狀態，本次抓取時與上次比對，若是不在上次的狀態中，便視爲增量，保存下來。對於scrapy來講，上一次的狀態是抓取的特徵數據和上次爬取的 request隊列（url列表），request隊列能夠經過request隊列能夠經過scrapy.core.scheduler的pending_requests成員獲得，在爬蟲啓動時導入上次爬取的特徵數據，而且用上次request

>>阅读原文<<