Python抓取框架：Scrapy的架構

時間 2019-11-09

標籤 python 抓取框架 scrapy 架構欄目 Python 简体版

原文原文鏈接

最近在學Python，同時也在學如何使用python抓取數據，因而就被我發現了這個很是受歡迎的Python抓取框架Scrapy，下面一塊兒學習下Scrapy的架構，便於更好的使用這個工具。python

1、概述數據庫

下圖顯示了Scrapy的大致架構，其中包含了它的主要組件及系統的數據處理流程（綠色箭頭所示）。下面就來一個個解釋每一個組件的做用及數據的處理過程。編程

2、組件網絡

一、Scrapy Engine（Scrapy引擎）架構

Scrapy引擎是用來控制整個系統的數據處理流程，並進行事務處理的觸發。更多的詳細內容能夠看下面的數據處理流程。框架

二、Scheduler（調度）異步

調度程序從Scrapy引擎接受請求並排序列入隊列，並在Scrapy引擎發出請求後返還給他們。ide

三、Downloader（下載器）異步編程

下載器的主要職責是抓取網頁並將網頁內容返還給蜘蛛( Spiders)。函數

四、Spiders（蜘蛛）

蜘蛛是有Scrapy用戶本身定義用來解析網頁並抓取制定URL返回的內容的類，每一個蜘蛛都能處理一個域名或一組域名。換句話說就是用來定義特定網站的抓取和解析規則。

蜘蛛的整個抓取流程（週期）是這樣的：

首先獲取第一個URL的初始請求，當請求返回後調取一個回調函數。第一個請求是經過調用start_requests()方法。該方法默認從start_urls中的Url中生成請求，並執行解析來調用回調函數。
在回調函數中，你能夠解析網頁響應並返回項目對象和請求對象或二者的迭代。這些請求也將包含一個回調，而後被Scrapy下載，而後有指定的回調處理。
在回調函數中，你解析網站的內容，同程使用的是Xpath選擇器（可是你也可使用BeautifuSoup, lxml或其餘任何你喜歡的程序），並生成解析的數據項。
最後，從蜘蛛返回的項目一般會進駐到項目管道。

五、Item Pipeline（項目管道）

項目管道的主要責任是負責處理有蜘蛛從網頁中抽取的項目，他的主要任務是清晰、驗證和存儲數據。當頁面被蜘蛛解析後，將被髮送到項目管道，並通過幾個特定的次序處理數據。每一個項目管道的組件都是有一個簡單的方法組成的Python類。他們獲取了項目並執行他們的方法，同時他們還須要肯定的是是否須要在項目管道中繼續執行下一步或是直接丟棄掉不處理。

項目管道一般執行的過程有：