爬蟲 - scrapy執行流程

時間 2019-12-10

原文原文鏈接

總體流程

- 引擎找到要執行的爬蟲，並執行爬蟲的 start_requests 方法，並的到一個 迭代器。
- 迭代器循環時會獲取Request對象，而request對象中封裝了要訪問的URL和回調函數。
- 將全部的request對象(任務)放到調度器中，用於之後被下載器下載。

- 下載器去調度器中獲取要下載任務（就是Request對象），下載完成後執行回調函數。

- 回到spider的回調函數中，
       yield Request()
       yield Item()

具體流程

 1 1. scrapy crawl chouti --nolog
 2      
 3 2. 找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置並實例化調度器對象
 4     - 執行Scheduler.from_crawler
 5     - 執行Scheduler.from_settings
 6         - 讀取配置文件：
 7             SCHEDULER_PERSIST            # 是否在關閉時候保留原來的調度器和去重記錄，True=保留，False=清空
 8             SCHEDULER_FLUSH_ON_START     # 是否在開始以前清空 調度器和去重記錄，True=清空，False=不清空
 9             SCHEDULER_IDLE_BEFORE_CLOSE  # 去調度器中獲取數據時，若是爲空，最多等待時間（最後沒數據，未獲取到）。
10         - 讀取配置文件：  
11             SCHEDULER_QUEUE_KEY          # %(spider)s:requests
12             SCHEDULER_QUEUE_CLASS        # scrapy_redis.queue.FifoQueue
13             SCHEDULER_DUPEFILTER_KEY     # '%(spider)s:dupefilter'
14             DUPEFILTER_CLASS             # 'scrapy_redis.dupefilter.RFPDupeFilter'
15             SCHEDULER_SERIALIZER         # "scrapy_redis.picklecompat"
16  
17         - 讀取配置文件：
18             REDIS_HOST = '140.143.227.206'                            # 主機名
19             REDIS_PORT = 8888                                   # 端口
20             REDIS_PARAMS  = {'password':'beta'}                                  # Redis鏈接參數             默認：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）
21             REDIS_ENCODING = "utf-8"     
22     - 示例Scheduler對象
23      
24 3. 爬蟲開始執行起始URL
25     - 調用 scheduler.enqueue_requests()
26         def enqueue_request(self, request):
27             # 請求是否須要過濾？
28             # 去重規則中是否已經有？（是否已經訪問過，若是未訪問添加到去重記錄中。）
29             if not request.dont_filter and self.df.request_seen(request):
30                 self.df.log(request, self.spider)
31                 # 已經訪問過就不要再訪問了
32                 return False
33              
34             if self.stats:
35                 self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
36             # print('未訪問過，添加到調度器', request)
37             self.queue.push(request)
38             return True
39      
40 4. 下載器去調度器中獲取任務，去下載
41      
42     - 調用 scheduler.next_requests()
43         def next_request(self):
44             block_pop_timeout = self.idle_before_close
45             request = self.queue.pop(block_pop_timeout)
46             if request and self.stats:
47                 self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
48             return request
49

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。