1.Scrapy圖例:shell
Scrapy Engine(引擎)
: 負責Spider
、ItemPipeline
、Downloader
、Scheduler
中間的通信,信號、數據傳遞等。網絡
Scheduler(調度器)
: 它負責接受引擎
發送過來的Request請求,並按照必定的方式進行整理排列,入隊,當引擎
須要時,交還給引擎
。框架
Downloader(下載器)
:負責下載Scrapy Engine(引擎)
發送的全部Requests請求,並將其獲取到的Responses交還給Scrapy Engine(引擎)
,由引擎
交給Spider
來處理,scrapy
Spider(爬蟲)
:它負責處理全部Responses,從中分析提取數據,獲取Item字段須要的數據,並將須要跟進的URL提交給引擎
,再次進入Scheduler(調度器)
,ide
Item Pipeline(管道)
:它負責處理Spider
中獲取到的Item,並進行進行後期處理(詳細分析、過濾、存儲等)的地方.性能
Downloader Middlewares(下載中間件)
:一個能夠自定義擴展下載功能的組件。測試
Spider Middlewares(Spider中間件)
:是一個能夠自定擴展和操做引擎
和Spider
中間通訊
的功能組件(好比進入Spider
的Responses;和從Spider
出去的Requests)fetch
************************上述內容是對scrapy框架的一個簡單介紹,內容摘自網絡****************************url
*****************************************************************************************spa
*********************下述內容爲scrapy命令信息,以及爬蟲起送後的信息作一簡單的整理和描述********************
一、咱們經過pip install scrapy安裝好scrapy之後在終端鍵入scrapy,就會顯示以下信息:
1).bench:快速測試當前硬件環境的性能,對於爬蟲來講咱們能夠主要關注兩個方面,一個是IO性能,一方面cpu的性能,IO主要取決於請求發送和相應的接收,cpu性能越強咱們解析數據的速度就會越快
2).fetch:快速測試一個url地址是否可以使用,scrapy fetch 'http://www.baidu.com'
3).genspider:建立爬蟲文件
4).runspider:運行爬蟲
5).獲取settings.py中某個字段的信息
6).shell終端界面,可用shell對咱們設定的頁面提取規則進行調試
以scrapy bench爲例,展現一下爬蟲啓動後的預加載信息以及具體的爬蟲信息