python爬蟲scrapy之downloader_middleware設置proxy代理

時間 2021-08-13

標籤 html python ajax chrome 瀏覽器服務器 cookie dom scrapy ide 欄目 Python 简体版

原文原文鏈接

1、背景：html

　　小編在爬蟲的時候確定會遇到被封殺的狀況，昨天爬了一個網站，剛開始是能夠了，在settings的設置DEFAULT_REQUEST_HEADERS假裝本身是chrome瀏覽器，剛開始是能夠的，緊接着就被對方服務器封殺了。python

代理：ajax

　　代理，代理，一直以爲爬去網頁把爬去速度放慢一點就能基本避免被封殺，雖然可使用selenium，可是這個坎必需要過，scrapy的代理其實設置起來很簡單。chrome

　　注意，request.meta['proxy']=代理ip的API瀏覽器

middlewares.py

class HttpbinProxyMiddleware(object):

    def process_request(self, request, spider):
        pro_addr = requests.get('http://127.0.0.1:5000/get').text
        request.meta['proxy'] = 'http://' + pro_addr
        #request.meta['proxy'] = 'http://' + proxy_ip

　　設置啓動上面咱們寫的這個代理服務器

settings.py
DOWNLOADER_MIDDLEWARES = {
   'httpbin.middlewares.HttpbinProxyMiddleware': 543,
}

　　spiderscookie

httpbin_test.py

import scrapy


class HttpbinTestSpider(scrapy.Spider):
    name = "httpbin_test"
    allowed_domains = ["httpbin.ort/get"]
    start_urls = ['http://httpbin.org/get']
    def parse(self, response):
        print(response.text)

　　origin的值其實就是本地的公網地址，可是由於咱們用了代理，這裏的ip是美國的一個ipdom

2、那麼問題來了，如今有這麼一個場景，如上所述的話，我每一個請求都會使用代理池裏面的代理IP地址，可是有些操做是不須要代理IP地址的，那麼怎麼才能讓它請求超時的時候，再使用代理池的IP地址進行從新請求呢？

　　spider：scrapy

　　一、咱們都知道scrapy的基本請求步驟是，首先執行父類裏面（scrapy.Spider）裏面的start_requests方法，ide

　　二、而後start_requests方法也是取拿咱們設置的start_urls變量裏面的url地址

　　三、最後才執行make_requests_from_url方法，並只傳入一個url變量

　　那麼，咱們就能夠重寫make_requests_from_url方法，從而直接調用scrapy.Request()方法，咱們簡單的瞭解一下里面的幾個參數：

　　一、url=url,其實就是最後start_requests()方法裏面拿到的url地址

　　二、meta這裏咱們只設置了一個參數，download_timeout:10，做用就是當第一次發起請求的時候，等待10秒鐘，若是沒有請求成功的話，就會直接執行download_middleware裏面的方法，咱們下面介紹。

　　三、callback回調函數，其實就是本次的本次全部操做完成後執行的操做，注意，這裏可不是說執行完上面全部操做後，再執行這個操做，好比說請求了一個url，而且成功了，下面就會執行這個方法。

　　四、dont_filter=False，這個很重要，有人說過不加的話默認就是False，可是親測必須得加，做用就是scrapy默認有去重的方法，等於False的話就意味着不參加scrapy的去重操做。親測，請求一個頁面，拿到第一個頁面後，抓取想要的操做後，第二頁就不行了，只有加上它才能夠。

import scrapy


class HttpbinTestSpider(scrapy.Spider):
    name = "httpbin_test"
    allowed_domains = ["httpbin.ort/get"]
    start_urls = ['http://httpbin.org/get']

    def make_requests_from_url(self,url):
        self.logger.debug('Try first time')
        return scrapy.Request(url=url,meta={'download_timeout':10},callback=self.parse,dont_filter=False)

    def parse(self, response):
        print(response.text)

middlewares.py
下面就是上面請求10秒後超時會執行的操做process_exception方法，心細的同窗會發現，咱們在spider文件裏面輸出log的時候，是直接輸出的，那是由於scrapy早都在父類裏面給你定義好了，直接應用就行，可是在middlewares裏面須要本身定義一個類變量定義，才能使用引用。

class HttpbinProxyMiddleware(object):
    logger = logging.getLogger(__name__)

    # def process_request(self, request, spider):
    #     # pro_addr = requests.get('http://127.0.0.1:5000/get').text
    #     # request.meta['proxy'] = 'http://' + pro_addr
    #     pass
    #
    # def process_response(self, request, response, spider):
    #     # 能夠拿到下載完的response內容，而後對下載完的內容進行修改（修改文本的編碼格式等操做）
    #     pass

    def process_exception(self, request, response, spider):
        self.logger.debug('Try Exception time')
        self.logger.debug('Try second time')
        proxy_addr = requests.get('http://127.0.0.1:5000/get').text
        self.logger.debug(proxy_addr)
        request.meta['proxy'] = 'http://{0}'.format(proxy_addr)

　　settings.py

　　這裏纔是關鍵，咱們須要執行middlewares裏面的HttpbinProxyMiddleware類下面的方法，這裏須要注意的是我取消了下載中間件的retry中間件，由於scrapy自己就有自動重試的方法，爲了試驗效果，這裏取消了默認的重試中間件。

DOWNLOADER_MIDDLEWARES = {
   'httpbin.middlewares.HttpbinProxyMiddleware': 543,
   #設置不參與scrapy的自動重試的動做
   'scrapy.downloadermiddlewares.retry.RetryMiddleware':None
}

　　注意：

　　上面我訪問的url是httpbin.org，這個網站不用代理也能夠打開，這裏你能夠在不打開FQ工具的時候，訪問google.com，由於我本身學習用的代理地址基本都是國內的地址，因此即便是google也是打不開的。

　　總結：

　　上面咱們介紹了兩種scrapy加代理的寫法：

　　一、第一種是直接每次訪問都使用代理IP發起請求

　　二、第二種是在不能正常獲取請求結果的時候，再使用代理ip。

　　三、咱們學習了scrapy中如何打印logging日誌，從而簡單判斷問題和執行步驟。

小知識：

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'httpbin.middlewares.HttpbinProxyMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-11-27 23:36:47 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']

scrapy默認middleware

這裏咱們能夠再Terminal下面打印一下，簡單介紹一下：

　　一、在scrapy中的中間件裏面，對應的中間件後面的數字越小，執行優先級越高。

　　二、若是你想取消某個download_middlewares的話就直接如我上面寫的，把它Copy出來，加個None，這樣它就不執行了。

　　三、補充，若是你看過scrapy的基本執行流程圖的話，就會知道scrapy除了下載中間件，還有個spider中間件，因此用的時候不要用錯了。

D:\項目\小項目\scrapy_day6_httpbin\httpbin>scrapy settings --get=DOWNLOADER_MIDDLEWARES_BASE
{"scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware": 300, "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": 500, "scrapy.downloadermiddlewares.redirect.MetaRefres
hMiddleware": 580, "scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware": 900, "scrapy.downloadermiddlewares.redirect.RedirectMiddleware": 600, "scrapy.downloadermiddlewares.r
obotstxt.RobotsTxtMiddleware": 100, "scrapy.downloadermiddlewares.retry.RetryMiddleware": 550, "scrapy.downloadermiddlewares.cookies.CookiesMiddleware": 700, "scrapy.downloadermiddle
wares.defaultheaders.DefaultHeadersMiddleware": 400, "scrapy.downloadermiddlewares.stats.DownloaderStats": 850, "scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddlewar
e": 590, "scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": 750, "scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware": 350, "scrapy.downloadermiddlewar
es.ajaxcrawl.AjaxCrawlMiddleware": 560}