01-scrapy框架

時間 2019-11-18

標籤 scrapy 框架欄目 Python 简体版

原文原文鏈接

1.Scrapy圖例：shell

　　Scrapy Engine(引擎): 負責Spider、ItemPipeline、Downloader、Scheduler中間的通信，信號、數據傳遞等。網絡

　　Scheduler(調度器): 它負責接受引擎發送過來的Request請求，並按照必定的方式進行整理排列，入隊，當引擎須要時，交還給引擎。框架

　　Downloader（下載器）：負責下載Scrapy Engine(引擎)發送的全部Requests請求，並將其獲取到的Responses交還給Scrapy Engine(引擎)，由引擎交給Spider來處理，scrapy

　　Spider（爬蟲）：它負責處理全部Responses,從中分析提取數據，獲取Item字段須要的數據，並將須要跟進的URL提交給引擎，再次進入Scheduler(調度器)，ide

　　Item Pipeline(管道)：它負責處理Spider中獲取到的Item，並進行進行後期處理（詳細分析、過濾、存儲等）的地方.性能

　　Downloader Middlewares（下載中間件）：一個能夠自定義擴展下載功能的組件。測試

　　Spider Middlewares（Spider中間件）：是一個能夠自定擴展和操做引擎和Spider中間通訊的功能組件（好比進入Spider的Responses;和從Spider出去的Requests）fetch

************************上述內容是對scrapy框架的一個簡單介紹，內容摘自網絡****************************url

*****************************************************************************************spa

*********************下述內容爲scrapy命令信息，以及爬蟲起送後的信息作一簡單的整理和描述********************

一、咱們經過pip install scrapy安裝好scrapy之後在終端鍵入scrapy,就會顯示以下信息：

　　1).bench:快速測試當前硬件環境的性能，對於爬蟲來講咱們能夠主要關注兩個方面，一個是IO性能，一方面cpu的性能，IO主要取決於請求發送和相應的接收，cpu性能越強咱們解析數據的速度就會越快

　　2).fetch:快速測試一個url地址是否可以使用，scrapy fetch 'http://www.baidu.com'

　　3).genspider:建立爬蟲文件

　　4).runspider:運行爬蟲

　　5).獲取settings.py中某個字段的信息

　　6).shell終端界面，可用shell對咱們設定的頁面提取規則進行調試

　　以scrapy bench爲例，展現一下爬蟲啓動後的預加載信息以及具體的爬蟲信息

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。