1、安裝框架
pip install scrapy. 若是提示須要什麼包就裝什麼包scrapy
有的包pip安裝不起,須要本身下載whl文件進行安裝.url
2、基本的爬蟲流程中間件
通用爬蟲有以下幾步:對象
構造url -->> 請求,獲取頁面內容 -->> 分析頁面內容(解析) -->> 保存結果 ip
3、scrapy的爬蟲流程it
scrapy的流程與普通爬蟲相同,有url做爲輸入--start_urls;pip
有請求--Requests,一般不須要本身構建,須要特殊參數時可以使用settings配置,或者編寫中間件;import
有分析--parse方法,直接傳入返回的response對象便可,內置的解析方法多種多樣,也能夠直接import解析庫進行解析;配置
有儲存--使用item在爬蟲中保存爬取到的對象,在pipline裏進行持久化,也能夠直接在代碼中寫文件或者使用"-o"參數...
4、總結
scrapy的最大優勢就是通用,你的大部分爬蟲均可以scrapy去實現去操做,省去了不少構造請求和框架的時間.
scrapy的最大缺點也來源於通用,使用的時候總以爲和我須要的有出入,因此要本身去寫中間件,本身去適配流程.