完全搞懂Scrapy的中間件(一)

中間件是Scrapy裏面的一個核心概念。使用中間件能夠在爬蟲的請求發起以前或者請求返回以後對數據進行定製化修改,從而開發出適應不一樣狀況的爬蟲。html

「中間件」這個中文名字和前面章節講到的「中間人」只有一字之差。它們作的事情確實也很是類似。中間件和中間人都能在中途劫持數據,作一些修改再把數據傳遞出去。不一樣點在於,中間件是開發者主動加進去的組件,而中間人是被動的,通常是惡意地加進去的環節。中間件主要用來輔助開發,而中間人卻多被用來進行數據的竊取、僞造甚至攻擊。java

在Scrapy中有兩種中間件:下載器中間件(Downloader Middleware)和爬蟲中間件(Spider Middleware)。python

這一篇主要講解下載器中間件的第一部分。android

下載器中間件

Scrapy的官方文檔中,對下載器中間件的解釋以下。redis

下載器中間件是介於Scrapy的request/response處理的鉤子框架,是用於全局修改Scrapy request和response的一個輕量、底層的系統。數據庫

這個介紹看起來很是繞口,但其實用容易理解的話表述就是:更換代理IP,更換Cookies,更換User-Agent,自動重試。json

若是徹底沒有中間件,爬蟲的流程以下圖所示。小程序

使用了中間件之後,爬蟲的流程以下圖所示。bash

開發代理中間件

在爬蟲開發中,更換代理IP是很是常見的狀況,有時候每一次訪問都須要隨機選擇一個代理IP來進行。cookie

中間件自己是一個Python的類,只要爬蟲每次訪問網站以前都先「通過」這個類,它就能給請求換新的代理IP,這樣就能實現動態改變代理。

在建立一個Scrapy工程之後,工程文件夾下會有一個middlewares.py文件,打開之後其內容以下圖所示。

Scrapy自動生成的這個文件名稱爲middlewares.py,名字後面的s表示複數,說明這個文件裏面能夠放不少箇中間件。Scrapy自動建立的這個中間件是一個爬蟲中間件,這種類型在第三篇文章會講解。如今先來建立一個自動更換代理IP的中間件。

在middlewares.py中添加下面一段代碼:

class ProxyMiddleware(object):

    def process_request(self, request, spider):
        proxy = random.choice(settings['PROXIES'])
        request.meta['proxy'] = proxy

複製代碼

要修改請求的代理,就須要在請求的meta裏面添加一個Key爲proxy,Value爲代理IP的項。

因爲用到了random和settings,因此須要在middlewares.py開頭導入它們:

import random
from scrapy.conf import settings
複製代碼

在下載器中間件裏面有一個名爲process_request()的方法,這個方法中的代碼會在每次爬蟲訪問網頁以前執行。

打開settings.py,首先添加幾個代理IP:

PROXIES = ['https://114.217.243.25:8118',
          'https://125.37.175.233:8118',
          'http://1.85.116.218:8118']
複製代碼

須要注意的是,代理IP是有類型的,須要先看清楚是HTTP型的代理IP仍是HTTPS型的代理IP。若是用錯了,就會致使沒法訪問。

激活中間件

中間件寫好之後,須要去settings.py中啓動。在settings.py中找到下面這一段被註釋的語句:

# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
# 'AdvanceSpider.middlewares.MyCustomDownloaderMiddleware': 543,
#}
複製代碼

解除註釋並修改,從而引用ProxyMiddleware。修改成:

DOWNLOADER_MIDDLEWARES = {
  'AdvanceSpider.middlewares.ProxyMiddleware': 543,
}
複製代碼

這其實就是一個字典,字典的Key就是用點分隔的中間件路徑,後面的數字表示這種中間件的順序。因爲中間件是按順序運行的,所以若是遇到後一箇中間件依賴前一箇中間件的狀況,中間件的順序就相當重要。

如何肯定後面的數字應該怎麼寫呢?最簡單的辦法就是從543開始,逐漸加一,這樣通常不會出現什麼大問題。若是想把中間件作得更專業一點,那就須要知道Scrapy自帶中間件的順序,如圖下圖所示。

數字越小的中間件越先執行,例如Scrapy自帶的第1箇中間件RobotsTxtMiddleware,它的做用是首先查看settings.py中ROBOTSTXT_OBEY這一項的配置是True仍是False。若是是True,表示要遵照Robots.txt協議,它就會檢查將要訪問的網址能不能被運行訪問,若是不被容許訪問,那麼直接就取消這一次請求,接下來的和此次請求有關的各類操做所有都不須要繼續了。

開發者自定義的中間件,會被按順序插入到Scrapy自帶的中間件中。爬蟲會按照從100~900的順序依次運行全部的中間件。直到全部中間件所有運行完成,或者遇到某一箇中間件而取消了此次請求。

Scrapy其實自帶了UA中間件(UserAgentMiddleware)、代理中間件(HttpProxyMiddleware)和重試中間件(RetryMiddleware)。因此,從「原則上」說,要本身開發這3箇中間件,須要先禁用Scrapy裏面自帶的這3箇中間件。要禁用Scrapy的中間件,須要在settings.py裏面將這個中間件的順序設爲None:

DOWNLOADER_MIDDLEWARES = {
  'AdvanceSpider.middlewares.ProxyMiddleware': 543,
  'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
  'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': None
}
複製代碼

爲何說「原則上」應該禁用呢?先查看Scrapy自帶的代理中間件的源代碼,以下圖所示:

從上圖能夠看出,若是Scrapy發現這個請求已經被設置了代理,那麼這個中間件就會什麼也不作,直接返回。所以雖然Scrapy自帶的這個代理中間件順序爲750,比開發者自定義的代理中間件的順序543大,可是它並不會覆蓋開發者本身定義的代理信息,因此即便不由用系統自帶的這個代理中間件也沒有關係。

完整地激活自定義中間件的settings.py的部份內容以下圖所示。

配置好之後運行爬蟲,爬蟲會在每次請求前都隨機設置一個代理。要測試代理中間件的運行效果,可使用下面這個練習頁面:

http://exercise.kingname.info/exercise_middleware_ip
複製代碼

這個頁面會返回爬蟲的IP地址,直接在網頁上打開,以下圖所示。

這個練習頁支持翻頁功能,在網址後面加上「/頁數」便可翻頁。例如第100頁的網址爲:

http://exercise.kingname.info/exercise_middleware_ip/100
複製代碼

使用了代理中間件爲每次請求更換代理的運行結果,以下圖所示。

代理中間件的可用代理列表不必定非要寫在settings.py裏面,也能夠將它們寫到數據庫或者Redis中。一個可行的自動更換代理的爬蟲系統,應該有以下的3個功能。

  1. 有一個小爬蟲ProxySpider去各大代理網站爬取免費代理並驗證,將可使用的代理IP保存到數據庫中。
  2. 在ProxyMiddlerware的process_request中,每次從數據庫裏面隨機選擇一條代理IP地址使用。
  3. 週期性驗證數據庫中的無效代理,及時將其刪除。 因爲免費代理極其容易失效,所以若是有必定開發預算的話,建議購買專業代理機構的代理服務,高速而穩定。

開發UA中間件

開發UA中間件和開發代理中間件幾乎同樣,它也是從settings.py配置好的UA列表中隨機選擇一項,加入到請求頭中。代碼以下:

class UAMiddleware(object):

    def process_request(self, request, spider):
        ua = random.choice(settings['USER_AGENT_LIST'])
        request.headers['User-Agent'] = ua
複製代碼

比IP更好的是,UA不會存在失效的問題,因此只要收集幾十個UA,就能夠一直使用。常見的UA以下:

USER_AGENT_LIST = [
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
  "Dalvik/1.6.0 (Linux; U; Android 4.2.1; 2013022 MIUI/JHACNBL30.0)",
  "Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; HUAWEI MT7-TL00 Build/HuaweiMT7-TL00) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
  "AndroidDownloadManager",
  "Apache-HttpClient/UNAVAILABLE (java 1.4)",
  "Dalvik/1.6.0 (Linux; U; Android 4.3; SM-N7508V Build/JLS36C)",
  "Android50-AndroidPhone-8000-76-0-Statistics-wifi",
  "Dalvik/1.6.0 (Linux; U; Android 4.4.4; MI 3 MIUI/V7.2.1.0.KXCCNDA)",
  "Dalvik/1.6.0 (Linux; U; Android 4.4.2; Lenovo A3800-d Build/LenovoA3800-d)",
  "Lite 1.0 ( http://litesuits.com )",
  "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)",
  "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0",
  "Mozilla/5.0 (Linux; U; Android 4.1.1; zh-cn; HTC T528t Build/JRO03H) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30; 360browser(securitypay,securityinstalled); 360(android,uppayplugin); 360 Aphone Browser (2.0.4)",
]
複製代碼

配置好UA之後,在settings.py下載器中間件裏面激活它,並使用UA練習頁來驗證UA是否每一次都不同。練習頁的地址爲:

http://exercise.kingname.info/exercise_middleware_ua。 
複製代碼

UA練習頁和代理練習頁同樣,也是能夠無限制翻頁的。

運行結果以下圖所示。

開發Cookies中間件

對於須要登陸的網站,可使用Cookies來保持登陸狀態。那麼若是單獨寫一個小程序,用Selenium持續不斷地用不一樣的帳號登陸網站,就能夠獲得不少不一樣的Cookies。因爲Cookies本質上就是一段文本,因此能夠把這段文本放在Redis裏面。這樣一來,當Scrapy爬蟲請求網頁時,能夠從Redis中讀取Cookies並給爬蟲換上。這樣爬蟲就能夠一直保持登陸狀態。

如下面這個練習頁面爲例:

http://exercise.kingname.info/exercise_login_success
複製代碼

若是直接用Scrapy訪問,獲得的是登陸界面的源代碼,以下圖所示。

如今,使用中間件,能夠實現徹底不改動這個loginSpider.py裏面的代碼,就打印出登陸之後才顯示的內容。

首先開發一個小程序,經過Selenium登陸這個頁面,並將網站返回的Headers保存到Redis中。這個小程序的代碼以下圖所示。

這段代碼的做用是使用Selenium和ChromeDriver填寫用戶名和密碼,實現登陸練習頁面,而後將登陸之後的Cookies轉換爲JSON格式的字符串並保存到Redis中。

接下來,再寫一箇中間件,用來從Redis中讀取Cookies,並把這個Cookies給Scrapy使用:

class LoginMiddleware(object):
    def __init__(self):
        self.client = redis.StrictRedis()
    
    def process_request(self, request, spider):
        if spider.name == 'loginSpider':
            cookies = json.loads(self.client.lpop('cookies').decode())
            request.cookies = cookies
複製代碼

設置了這個中間件之後,爬蟲裏面的代碼不須要作任何修改就能夠成功獲得登陸之後才能看到的HTML,如圖12-12所示。

若是有某網站的100個帳號,那麼單獨寫一個程序,持續不斷地用Selenium和ChromeDriver或者Selenium 和PhantomJS登陸,獲取Cookies,並將Cookies存放到Redis中。爬蟲每次訪問都從Redis中讀取一個新的Cookies來進行爬取,就大大下降了被網站發現或者封鎖的可能性。

這種方式不只適用於登陸,也適用於驗證碼的處理。

這一篇就講到這裏,在下一篇,咱們將會介紹如何在下載器中間件中集成Selenium,進行請求重試和處理異常。

本文節選自個人新書《Python爬蟲開發 從入門到實戰》完整目錄能夠在京東查詢到 item.jd.com/12436581.ht…

買不買書不重要,重要的是請關注個人公衆號:未聞 Code

公衆號已經連續日更三個多月了。在接下來的很長時間裏也會連續日更。

相關文章
相關標籤/搜索