Python爬蟲之Scrapy學習（基礎篇）

時間 2019-12-05

原文原文鏈接

做者：xiaoyu
微信公衆號：Python數據科學
知乎：Python數據分析師html

在爬蟲的路上，學習scrapy是一個必不可少的環節。也許有好多朋友此時此刻也正在接觸並學習scrapy，那麼很好，咱們一塊兒學習。開始接觸scrapy的朋友可能會有些疑惑，畢竟是一個框架，上來不知從何學起。從本篇起，博主將開啓scrapy學習的系列，分享如何快速入門scrapy並熟練使用它。python

本篇做爲第一篇，主要介紹和了解scrapy，在結尾會向你們推薦一本關於學習scrapy的書，以及獲取的方式。redis

爲何要用爬蟲框架？

若是你對爬蟲的基礎知識有了必定了解的話，那麼是時候該瞭解一下爬蟲框架了。那麼爲何要使用爬蟲框架？數據庫

學習框架的根本是學習一種編程思想，而不該該僅僅侷限因而如何使用它。從瞭解到掌握一種框架，實際上是對一種思想理解的過程。
框架也給咱們的開發帶來了極大的方便。許多條條框框都已是寫好了的，並不須要咱們重複造輪子，咱們只須要根據本身的需求定製本身要實現的功能就行了，大大減小了工做量。
參考並學習優秀的框架代碼，提高編程代碼能力。

博主當時是根據這幾點來進行爬蟲框架的學習的，可是切記核心目標是掌握一種框架思想，一種框架的能力，掌握了這種思想你才能更好的去使用它，甚至擴展它。編程

scrapy框架的介紹

比較流行的爬蟲的框架有scrapy和pyspider，可是被你們所鍾愛的我想非scrapy莫屬了。scrapy是一個開源的高級爬蟲框架，咱們能夠稱它爲"scrapy語言"。它使用python編寫，用於爬取網頁，提取結構性數據，並可將抓取得結構性數據較好的應用於數據分析和數據挖掘。scrapy有如下的一些特色：微信

scrapy基於事件的機制，利用twisted的設計實現了非阻塞的異步操做。這相比於傳統的阻塞式請求，極大的提升了CPU的使用率，以及爬取效率。
配置簡單，能夠簡單的經過設置一行代碼實現複雜功能。
可拓展，插件豐富，好比分佈式scrapy + redis、爬蟲可視化等插件。
解析方便易用，scrapy封裝了xpath等解析器，提供了更方便更高級的selector構造器，可有效的處理破損的HTML代碼和編碼。

scrapy和requests+bs用哪一個好？

有的朋友問了，爲何要使用scrapy，不使用不行嗎？用resquests + beautifulsoup組合難道不能完成嗎？多線程

不用糾結，根據本身方便來。resquests + beautifulsoup固然能夠了，requests + 任何解析器都行，都是很是好的組合。這樣用的優勢是咱們能夠靈活的寫咱們本身的代碼，沒必要拘泥於固定模式。對於使用固定的框架有時候不必定用起來方便，好比scrapy對於反反爬的處理並無很完善，好多時候也要本身來解決。架構

可是對於一些中小型的爬蟲任務來說，scrapy確實是很是好的選擇，它避免了咱們來寫一些重複的代碼，而且有着出色的性能。咱們本身寫代碼的時候，好比爲了提升爬取效率，每次都本身碼多線程或異步等代碼，大大浪費了開發時間。這時候使用已經寫好的框架是再好不過的選擇了，咱們只要簡單的寫寫解析規則和pipeline就行了。那麼具體哪些是須要咱們作的呢？看看下面這個圖就明白了。框架

參考來源在本文末dom

所以，對於該用哪一個，根據我的需求和喜愛決定。可是至於學習的前後順序，博主建議先學學resquests + beautifulsoup，而後再接觸Scrapy效果可能會更好些，僅供參考。

scrapy的架構

在學習Scrapy以前，咱們須要瞭解Scrapy的架構，明白這個架構對學習scrapy相當重要。

Scrapy官方文檔的圖片

下面的描述引自官方doc文檔（在此引用），講的很清楚明白，對照這個圖看就能明白。

組件

Scrapy Engine
引擎負責控制數據流在系統中全部組件中流動，並在相應動做發生時觸發事件。詳細內容查看下面的數據流(Data Flow)部分。

調度器(Scheduler)
調度器從引擎接受request並將他們入隊，以便以後引擎請求他們時提供給引擎。

下載器(Downloader)
下載器負責獲取頁面數據並提供給引擎，然後提供給spider。

Spiders
Spider是Scrapy用戶編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。每一個spider負責處理一個特定(或一些)網站。

Item Pipeline
Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到數據庫中)。

下載器中間件(Downloader middlewares)
下載器中間件是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response。其提供了一個簡便的機制，經過插入自定義代碼來擴展Scrapy功能。

Spider中間件(Spider middlewares)
Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，經過插入自定義代碼來擴展Scrapy功能。