Python -- Scrapy 架構概覽

時間 2019-11-18

標籤 python scrapy 架構概覽欄目 Python 简体版

原文原文鏈接

架構概覽

本文檔介紹了Scrapy架構及其組件之間的交互。html

概述數據庫

接下來的圖表展示了Scrapy的架構，包括組件及在系統中發生的數據流的概覽(綠色箭頭所示)。下面對每一個組件都作了簡單介紹，並給出了詳細內容的連接。數據流以下所描述。編程

組件

引擎（Scrapy Engine）

引擎負責控制數據流在系統中全部組件中流動，並在相應動做發生時觸發事件。詳細內容查看下面的數據流(Data Flow)部分。網絡

調度器(Scheduler)

調度器從引擎接受request並將他們入隊，以便以後引擎請求他們時提供給引擎。架構

下載器(Downloader)

下載器負責獲取頁面數據並提供給引擎，然後提供給spider。併發

爬蟲（Spiders）

Spider是Scrapy用戶編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。每一個spider負責處理一個特定(或一些)網站。更多內容請看 Spiders 。框架

項目管道（Item Pipeline）

Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到數據庫中)。更多內容查看 Item Pipeline 。dom

下載器中間件(Downloader middlewares)

下載器中間件是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response。其提供了一個簡便的機制，經過插入自定義代碼來擴展Scrapy功能。更多內容請看下載器中間件(Downloader Middleware) 。異步

Spider中間件(Spider middlewares)

Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，經過插入自定義代碼來擴展Scrapy功能。更多內容請看 Spider中間件(Middleware) 。scrapy