- 引擎找到要執行的爬蟲,並執行爬蟲的 start_requests 方法,並的到一個 迭代器。
- 迭代器循環時會獲取Request對象,而request對象中封裝了要訪問的URL和回調函數。
- 將全部的request對象(任務)放到調度器中,用於之後被下載器下載。
- 下載器去調度器中獲取要下載任務(就是Request對象),下載完成後執行回調函數。
- 回到spider的回調函數中,
yield Request()
yield Item()
1 1. scrapy crawl chouti --nolog 2 3 2. 找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置並實例化調度器對象 4 - 執行Scheduler.from_crawler 5 - 執行Scheduler.from_settings 6 - 讀取配置文件: 7 SCHEDULER_PERSIST # 是否在關閉時候保留原來的調度器和去重記錄,True=保留,False=清空 8 SCHEDULER_FLUSH_ON_START # 是否在開始以前清空 調度器和去重記錄,True=清空,False=不清空 9 SCHEDULER_IDLE_BEFORE_CLOSE # 去調度器中獲取數據時,若是爲空,最多等待時間(最後沒數據,未獲取到)。 10 - 讀取配置文件: 11 SCHEDULER_QUEUE_KEY # %(spider)s:requests 12 SCHEDULER_QUEUE_CLASS # scrapy_redis.queue.FifoQueue 13 SCHEDULER_DUPEFILTER_KEY # '%(spider)s:dupefilter' 14 DUPEFILTER_CLASS # 'scrapy_redis.dupefilter.RFPDupeFilter' 15 SCHEDULER_SERIALIZER # "scrapy_redis.picklecompat" 16 17 - 讀取配置文件: 18 REDIS_HOST = '140.143.227.206' # 主機名 19 REDIS_PORT = 8888 # 端口 20 REDIS_PARAMS = {'password':'beta'} # Redis鏈接參數 默認:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}) 21 REDIS_ENCODING = "utf-8" 22 - 示例Scheduler對象 23 24 3. 爬蟲開始執行起始URL 25 - 調用 scheduler.enqueue_requests() 26 def enqueue_request(self, request): 27 # 請求是否須要過濾? 28 # 去重規則中是否已經有?(是否已經訪問過,若是未訪問添加到去重記錄中。) 29 if not request.dont_filter and self.df.request_seen(request): 30 self.df.log(request, self.spider) 31 # 已經訪問過就不要再訪問了 32 return False 33 34 if self.stats: 35 self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider) 36 # print('未訪問過,添加到調度器', request) 37 self.queue.push(request) 38 return True 39 40 4. 下載器去調度器中獲取任務,去下載 41 42 - 調用 scheduler.next_requests() 43 def next_request(self): 44 block_pop_timeout = self.idle_before_close 45 request = self.queue.pop(block_pop_timeout) 46 if request and self.stats: 47 self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider) 48 return request 49