python爬蟲經常使用之Scrapy 簡述

時間 2019-12-09

標籤 python 爬蟲經常使用 scrapy 簡述欄目 Python 简体版

原文原文鏈接

1、安裝框架

pip install scrapy. 若是提示須要什麼包就裝什麼包scrapy

有的包pip安裝不起,須要本身下載whl文件進行安裝.url

2、基本的爬蟲流程中間件

通用爬蟲有以下幾步:對象

構造url -->> 請求,獲取頁面內容 -->> 分析頁面內容(解析) -->>　保存結果　ip

3、scrapy的爬蟲流程it

scrapy的流程與普通爬蟲相同，有url做爲輸入－－start_urls；pip

　　有請求－－Requests,一般不須要本身構建,須要特殊參數時可以使用settings配置,或者編寫中間件；import

有分析－－parse方法,直接傳入返回的response對象便可,內置的解析方法多種多樣,也能夠直接import解析庫進行解析；配置

有儲存－－使用item在爬蟲中保存爬取到的對象,在pipline裏進行持久化,也能夠直接在代碼中寫文件或者使用"-o"參數...

4、總結

scrapy的最大優勢就是通用,你的大部分爬蟲均可以scrapy去實現去操做,省去了不少構造請求和框架的時間.

scrapy的最大缺點也來源於通用,使用的時候總以爲和我須要的有出入,因此要本身去寫中間件,本身去適配流程.

相關標籤/搜索