scrapy 爬取流程 -- 數據流(Data flow)

  Scrapy中的數據流由執行引擎控制,其過程如下: 引擎打開一個網站(open a domain),找到處理該網站的Spider並向該spider請求第一個要爬取的URL(s)。 引擎從Spider中獲取到第一個要爬取的URL並在調度器(Scheduler)以Request調度。 引擎向調度器請求下一個要爬取的URL。 調度器返回下一個要爬取的URL給引擎,引擎將URL通過下載中間件(請求(r
相關文章
相關標籤/搜索