python爬蟲經常使用之Scrapy 簡述

1、安裝框架

    pip install scrapy. 若是提示須要什麼包就裝什麼包scrapy

    有的包pip安裝不起,須要本身下載whl文件進行安裝.url

2、基本的爬蟲流程中間件

     通用爬蟲有以下幾步:對象

        構造url -->> 請求,獲取頁面內容  -->> 分析頁面內容(解析) -->> 保存結果     ip

3、scrapy的爬蟲流程it

    scrapy的流程與普通爬蟲相同,有url做爲輸入--start_urls;pip

  有請求--Requests,一般不須要本身構建,須要特殊參數時可以使用settings配置,或者編寫中間件;import

       有分析--parse方法,直接傳入返回的response對象便可,內置的解析方法多種多樣,也能夠直接import解析庫進行解析;配置

       有儲存--使用item在爬蟲中保存爬取到的對象,在pipline裏進行持久化,也能夠直接在代碼中寫文件或者使用"-o"參數...

4、總結

      scrapy的最大優勢就是通用,你的大部分爬蟲均可以scrapy去實現去操做,省去了不少構造請求和框架的時間.

      scrapy的最大缺點也來源於通用,使用的時候總以爲和我須要的有出入,因此要本身去寫中間件,本身去適配流程.

相關文章
相關標籤/搜索