01-scrapy框架

1.Scrapy圖例:shell

  

  Scrapy Engine(引擎): 負責SpiderItemPipelineDownloaderScheduler中間的通信,信號、數據傳遞等。網絡

  Scheduler(調度器): 它負責接受引擎發送過來的Request請求,並按照必定的方式進行整理排列,入隊,當引擎須要時,交還給引擎框架

  Downloader(下載器):負責下載Scrapy Engine(引擎)發送的全部Requests請求,並將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理,scrapy

  Spider(爬蟲)它負責處理全部Responses,從中分析提取數據,獲取Item字段須要的數據,並將須要跟進的URL提交給引擎,再次進入Scheduler(調度器)ide

   Item Pipeline(管道)它負責處理Spider中獲取到的Item,並進行進行後期處理(詳細分析、過濾、存儲等)的地方.性能

  Downloader Middlewares(下載中間件)一個能夠自定義擴展下載功能的組件。測試

  Spider Middlewares(Spider中間件)是一個能夠自定擴展和操做引擎Spider中間通訊的功能組件(好比進入Spider的Responses;和從Spider出去的Requests)fetch

************************上述內容是對scrapy框架的一個簡單介紹,內容摘自網絡****************************url

*****************************************************************************************spa

*********************下述內容爲scrapy命令信息,以及爬蟲起送後的信息作一簡單的整理和描述********************

一、咱們經過pip install scrapy安裝好scrapy之後在終端鍵入scrapy,就會顯示以下信息:

  

  1).bench:快速測試當前硬件環境的性能,對於爬蟲來講咱們能夠主要關注兩個方面,一個是IO性能,一方面cpu的性能,IO主要取決於請求發送和相應的接收,cpu性能越強咱們解析數據的速度就會越快

  2).fetch:快速測試一個url地址是否可以使用,scrapy fetch 'http://www.baidu.com'

  3).genspider:建立爬蟲文件

  4).runspider:運行爬蟲

  5).獲取settings.py中某個字段的信息

  6).shell終端界面,可用shell對咱們設定的頁面提取規則進行調試 

  以scrapy bench爲例,展現一下爬蟲啓動後的預加載信息以及具體的爬蟲信息

  

相關文章
相關標籤/搜索