Scrapy框架

時間 2019-11-05

標籤 scrapy 框架欄目 Python 简体版

原文原文鏈接

原理圖一

1，spider打開某網頁，獲取到一個或者多個request，經由scrapy engine傳送給調度器scheduler
request特別多而且速度特別快會在scheduler造成請求隊列queue，由scheduler安排執行
2，schelduler會按照必定的次序取出請求，經由引擎, 下載器中間鍵，發送給下載器dowmloader
這裏的下載器中間鍵是設定在請求執行前，所以能夠設定代理，請求頭，cookie等
3，下載下來的網頁數據再次通過下載器中間鍵，通過引擎，通過爬蟲中間鍵傳送給爬蟲spiders
這裏的下載器中間鍵是設定在請求執行後，所以能夠修改請求的結果
這裏的爬蟲中間鍵是設定在數據或者請求到達爬蟲以前，與下載器中間鍵有相似的功能
4，由爬蟲spider對下載下來的數據進行解析，按照item設定的數據結構經由爬蟲中間鍵，引擎發送給項目管道itempipeline
這裏的項目管道itempipeline能夠對數據進行進一步的清洗，存儲等操做
這裏爬蟲極有可能從數據中解析到進一步的請求request，它會把請求經由引擎從新發送給調度器shelduler，調度器循環執行上述操做
5，項目管道itempipeline管理着最後的輸出

原理圖二

Scrapy數據流是由執行的核心引擎(engine)控制，流程是這樣的：數據庫

一、爬蟲引擎得到初始請求開始抓取。
二、爬蟲引擎開始請求調度程序，並準備對下一次的請求進行抓取。
三、爬蟲調度器返回下一個請求給爬蟲引擎。
四、引擎請求發送到下載器，經過下載中間件下載網絡數據。
五、一旦下載器完成頁面下載，將下載結果返回給爬蟲引擎。
六、引擎將下載器的響應經過中間件返回給爬蟲進行處理。
七、爬蟲處理響應，並經過中間件返回處理後的items，以及新的請求給引擎。
八、引擎發送處理後的items到項目管道，而後把處理結果返回給調度器，調度器計劃處理下一個請求抓取。
九、重複該過程（繼續步驟1），直到爬取完全部的url請求。cookie