Python 2 / 3
升級pip版本:html
pip install --upgrade pip
經過pip 安裝 Scrapy 框架python
pip install scrapy
Ubuntu 須要9.10或以上版本安裝方式
Python 2 / 3
安裝非Python的依賴框架
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
經過pip 安裝 Scrapy 框架scrapy
sudo pip install scrapy
具體Scrapy安裝流程參考:http://doc.scrapy.org/en/latest/intro/install.html#intro-install-platform-notes 裏面有各個平臺的安裝方法ide
Scrapy構架解析:Scrapy Engine(引擎): 負責Spider、ItemPipeline、Downloader、Scheduler中間的通信,信號、數據傳遞等。code
Scheduler(調度器): 它負責接受引擎發送過來的Request請求,並按照必定的方式進行整理排列,入隊,當引擎須要時,交還給引擎。orm
Downloader(下載器):負責下載Scrapy Engine(引擎)發送的全部Requests請求,並將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理,xml
Spider(爬蟲):它負責處理全部Responses,從中分析提取數據,獲取Item字段須要的數據,並將須要跟進的URL提交給引擎,再次進入Scheduler(調度器),htm
Item Pipeline(管道):它負責處理Spider中獲取到的Item,並進行進行後期處理(詳細分析、過濾、存儲等)的地方.中間件
Downloader Middlewares(下載中間件):你能夠看成是一個能夠自定義擴展下載功能的組件。
Spider Middlewares(Spider中間件):你能夠理解爲是一個能夠自定擴展和操做引擎和Spider中間通訊的功能組件(好比進入Spider的Responses;和從Spider出去的Requests)