scrapy 爬取流程 -- 數據流(Data flow)

時間 2020-12-30

標籤實用 python 爬蟲欄目 Python 简体版

原文原文鏈接

Scrapy中的數據流由執行引擎控制，其過程如下: 引擎打開一個網站(open a domain)，找到處理該網站的Spider並向該spider請求第一個要爬取的URL(s)。引擎從Spider中獲取到第一個要爬取的URL並在調度器(Scheduler)以Request調度。引擎向調度器請求下一個要爬取的URL。調度器返回下一個要爬取的URL給引擎，引擎將URL通過下載中間件(請求(r

>>阅读原文<<