1、背景:html
小編在爬蟲的時候確定會遇到被封殺的狀況,昨天爬了一個網站,剛開始是能夠了,在settings的設置DEFAULT_REQUEST_HEADERS假裝本身是chrome瀏覽器,剛開始是能夠的,緊接着就被對方服務器封殺了。python
代理:ajax
代理,代理,一直以爲爬去網頁把爬去速度放慢一點就能基本避免被封殺,雖然可使用selenium,可是這個坎必需要過,scrapy的代理其實設置起來很簡單。chrome
注意,request.meta['proxy']=代理ip的API瀏覽器
middlewares.py class HttpbinProxyMiddleware(object): def process_request(self, request, spider): pro_addr = requests.get('http://127.0.0.1:5000/get').text request.meta['proxy'] = 'http://' + pro_addr #request.meta['proxy'] = 'http://' + proxy_ip
設置啓動上面咱們寫的這個代理服務器
settings.py DOWNLOADER_MIDDLEWARES = { 'httpbin.middlewares.HttpbinProxyMiddleware': 543, }
spiderscookie
httpbin_test.py import scrapy class HttpbinTestSpider(scrapy.Spider): name = "httpbin_test" allowed_domains = ["httpbin.ort/get"] start_urls = ['http://httpbin.org/get'] def parse(self, response): print(response.text)
origin的值其實就是本地的公網地址,可是由於咱們用了代理,這裏的ip是美國的一個ipdom
2、那麼問題來了,如今有這麼一個場景,如上所述的話,我每一個請求都會使用代理池裏面的代理IP地址,可是有些操做是不須要代理IP地址的,那麼怎麼才能讓它請求超時的時候,再使用代理池的IP地址進行從新請求呢?
spider:scrapy
一、咱們都知道scrapy的基本請求步驟是,首先執行父類裏面(scrapy.Spider)裏面的start_requests方法,ide
二、而後start_requests方法也是取拿咱們設置的start_urls變量裏面的url地址
三、最後才執行make_requests_from_url方法,並只傳入一個url變量
那麼,咱們就能夠重寫make_requests_from_url方法,從而直接調用scrapy.Request()方法,咱們簡單的瞭解一下里面的幾個參數:
一、url=url,其實就是最後start_requests()方法裏面拿到的url地址
二、meta這裏咱們只設置了一個參數,download_timeout:10,做用就是當第一次發起請求的時候,等待10秒鐘,若是沒有請求成功的話,就會直接執行download_middleware裏面的方法,咱們下面介紹。
三、callback回調函數,其實就是本次的本次全部操做完成後執行的操做,注意,這裏可不是說執行完上面全部操做後,再執行這個操做,好比說請求了一個url,而且成功了,下面就會執行這個方法。
四、dont_filter=False,這個很重要,有人說過不加的話默認就是False,可是親測必須得加,做用就是scrapy默認有去重的方法,等於False的話就意味着不參加scrapy的去重操做。親測,請求一個頁面,拿到第一個頁面後,抓取想要的操做後,第二頁就不行了,只有加上它才能夠。
import scrapy class HttpbinTestSpider(scrapy.Spider): name = "httpbin_test" allowed_domains = ["httpbin.ort/get"] start_urls = ['http://httpbin.org/get'] def make_requests_from_url(self,url): self.logger.debug('Try first time') return scrapy.Request(url=url,meta={'download_timeout':10},callback=self.parse,dont_filter=False) def parse(self, response): print(response.text)
middlewares.py
下面就是上面請求10秒後超時會執行的操做process_exception方法,心細的同窗會發現,咱們在spider文件裏面輸出log的時候,是直接輸出的,那是由於scrapy早都在父類裏面給你定義好了,直接應用就行,可是在middlewares裏面須要本身定義一個類變量定義,才能使用引用。
class HttpbinProxyMiddleware(object): logger = logging.getLogger(__name__) # def process_request(self, request, spider): # # pro_addr = requests.get('http://127.0.0.1:5000/get').text # # request.meta['proxy'] = 'http://' + pro_addr # pass # # def process_response(self, request, response, spider): # # 能夠拿到下載完的response內容,而後對下載完的內容進行修改(修改文本的編碼格式等操做) # pass def process_exception(self, request, response, spider): self.logger.debug('Try Exception time') self.logger.debug('Try second time') proxy_addr = requests.get('http://127.0.0.1:5000/get').text self.logger.debug(proxy_addr) request.meta['proxy'] = 'http://{0}'.format(proxy_addr)
settings.py
這裏纔是關鍵,咱們須要執行middlewares裏面的HttpbinProxyMiddleware類下面的方法,這裏須要注意的是我取消了下載中間件的retry中間件,由於scrapy自己就有自動重試的方法,爲了試驗效果,這裏取消了默認的重試中間件。
DOWNLOADER_MIDDLEWARES = { 'httpbin.middlewares.HttpbinProxyMiddleware': 543, #設置不參與scrapy的自動重試的動做 'scrapy.downloadermiddlewares.retry.RetryMiddleware':None }
注意:
上面我訪問的url是httpbin.org,這個網站不用代理也能夠打開,這裏你能夠在不打開FQ工具的時候,訪問google.com,由於我本身學習用的代理地址基本都是國內的地址,因此即便是google也是打不開的。
總結:
上面咱們介紹了兩種scrapy加代理的寫法:
一、第一種是直接每次訪問都使用代理IP發起請求
二、第二種是在不能正常獲取請求結果的時候,再使用代理ip。
三、咱們學習了scrapy中如何打印logging日誌,從而簡單判斷問題和執行步驟。
小知識:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 'httpbin.middlewares.HttpbinProxyMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2017-11-27 23:36:47 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware']
這裏咱們能夠再Terminal下面打印一下,簡單介紹一下:
一、在scrapy中的中間件裏面,對應的中間件後面的數字越小,執行優先級越高。
二、若是你想取消某個download_middlewares的話就直接如我上面寫的,把它Copy出來,加個None,這樣它就不執行了。
三、補充,若是你看過scrapy的基本執行流程圖的話,就會知道scrapy除了下載中間件,還有個spider中間件,因此用的時候不要用錯了。
D:\項目\小項目\scrapy_day6_httpbin\httpbin>scrapy settings --get=DOWNLOADER_MIDDLEWARES_BASE {"scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware": 300, "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": 500, "scrapy.downloadermiddlewares.redirect.MetaRefres hMiddleware": 580, "scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware": 900, "scrapy.downloadermiddlewares.redirect.RedirectMiddleware": 600, "scrapy.downloadermiddlewares.r obotstxt.RobotsTxtMiddleware": 100, "scrapy.downloadermiddlewares.retry.RetryMiddleware": 550, "scrapy.downloadermiddlewares.cookies.CookiesMiddleware": 700, "scrapy.downloadermiddle wares.defaultheaders.DefaultHeadersMiddleware": 400, "scrapy.downloadermiddlewares.stats.DownloaderStats": 850, "scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddlewar e": 590, "scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": 750, "scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware": 350, "scrapy.downloadermiddlewar es.ajaxcrawl.AjaxCrawlMiddleware": 560}