Scrapy學習篇(一)之框架

概覽

在具體的學習scrapy以前,咱們先對scrapy的架構作一個簡單的瞭解,以後全部的內容都是基於此架構實現的,在初學階段只須要簡單的瞭解便可,以後的學習中,你會對此架構有更深的理解。
下面是scrapy官網給出的最新的架構圖示。
數據庫

基本組件

  • 引擎(Engine)

    引擎負責控制數據流在系統中全部組件中流動,並在相應動做發生時觸發事件。 詳細內容查看下面的數據流(Data Flow)部分。
  • 調度器(Scheduler)

    調度器從引擎接受request並將他們入隊,以便以後引擎請求他們時提供給引擎。
  • 下載器(Downloader)

    下載器負責獲取頁面數據並提供給引擎,然後提供給spider。
  • 爬蟲(Spiders)

    Spider是Scrapy用戶編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。 每一個spider負責處理一個特定(或一些)網站。
  • 管道(Item Pipeline)

    Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到數據庫中)。
  • 下載器中間件(Downloader middlewares)

    下載器中間件是在引擎及下載器之間的特定鉤子(specific hook),處理Downloader傳遞給引擎的response。 其提供了一個簡便的機制,經過插入自定義代碼來擴展Scrapy功能。
  • Spider中間件(Spider middlewares)

    Spider中間件是在引擎及Spider之間的特定鉤子(specific hook),處理spider的輸入(response)和輸出(items及requests)。 其提供了一個簡便的機制,經過插入自定義代碼來擴展Scrapy功能。

數據流向

Scrapy的數據流由執行引擎(Engine)控制,其基本過程以下:架構

  1. 引擎從Spider中獲取到初始Requests。
  2. 引擎將該Requests放入調度器,並請求下一個要爬取的Requests。
  3. 調度器返回下一個要爬取的Requests給引擎
  4. 引擎將Requests經過下載器中間件轉發給下載器(Downloader)。
  5. 一旦頁面下載完畢,下載器生成一個該頁面的Response,並將其經過下載中間件(返回(response)方向)發送給引擎。
  6. 引擎從下載器中接收到Response並經過Spider中間件(輸入方向)發送給Spider處理。
  7. Spider處理Response並返回爬取到的Item及(跟進的)新的Request給引擎。
  8. 引擎將(Spider返回的)爬取到的Item交給ItemPipeline處理,將(Spider返回的)Request交給調度器,並請求下一個Requests(若是存在的話)。
  9. (從第一步)重複直到調度器中沒有更多地Request。

總結

Scrapy的各個組件相互配合執行,有的組件負責任務的調度,有的組件負責任務的下載,有的組件負責數據的清洗保存,各組件分工明確。在組件之間存在middleware的中間件,其做用就是功能的拓展,固然還能夠根據自身的需求自定義這些拓展功能,好比咱們能夠在Downloader middlewares裏面實現User-Agent的切換,Proxy的切換等等。這些功能咱們會在後續的學習中逐漸拓展。這裏只須要大體的瞭解便可。scrapy

相關文章
相關標籤/搜索