python爬蟲scrapy模擬登陸demo

python爬蟲scrapy模擬登陸demo

背景:初來乍到的pythoner,剛開始的時候以爲全部的網站無非就是分析HTML、json數據,可是忽略了不少的一個問題,有不少的網站爲了反爬蟲,除了須要高可用代理IP地址池外,還須要登陸。例如知乎,不少信息都是須要登陸之後才能爬取,可是頻繁登陸後就會出現驗證碼(有些網站直接就讓你輸入驗證碼),這就坑了,畢竟運維同窗很辛苦,該反的還得反,那咱們怎麼辦呢?這不說驗證碼的事兒,你能夠本身手動輸入驗證,或者直接用雲打碼平臺,這裏咱們介紹一個scrapy的登陸用法。python

測試登陸地址:http://example.webscraping.com/places/default/user/loginweb

測試主頁:http://example.webscraping.com/user/profilejson

一、這裏不在敘述如何建立scrapy項目和spider,能夠看我前面的博客api

咱們在這裏作了一個簡單的介紹,咱們都知道scrapy的基本請求流程是startrequest方法遍歷starturls列表,而後makerequestsfromurl方法,裏面執行Request方法,請求starturls裏面的地址,可是這裏咱們用的再也不是GET方法,而用的是POST方法,也就常說的登陸。python爬蟲

一、首先咱們改寫start_reqeusts方法,直接GET登陸頁面的HTML信息(有些人說你不是POST登陸麼,幹嗎還GET,彆着急,你得先GET到登陸頁面的登陸信息,才知道登陸的帳戶、密碼等怎麼提交,往哪裏提交)運維

二、startrequest方法GET到數據後,用callback參數,執行拿到response後要接下來執行哪一個方法,而後在login方法裏面寫入登陸用戶名和密碼(仍是老樣子,必定要用dict),而後只用Request子類scrapy.FormRequest這個方法提交數據,這我一個的是FormRequest.fromresponse方m_法。dom

有些人會問,這個from__response的基本使用是條用是須要傳入一個response對象做爲第一個參數,這個方法會從頁面中form表單中,幫助用戶建立FormRequest對象,最最最最重要的是它會幫你把隱藏的input標籤中的信息自動跳入表達,使用這個中方法,咱們直接寫用戶名和密碼便可,咱們在最後面再介紹傳統方法。scrapy

三、parselogin方法是提交完表單後callback回調函數指定要執行的方法,爲了驗證是否成功。這裏咱們直接在response中搜索Welcome Liu這個字眼就證實登陸成功。這個好理解,重點是yield from super().startresquests(),這個表明着若是一旦登陸成功後,就直接帶着登陸成功後Cookie值,方法start_urls裏面的地址。這樣的話登陸成功後的response能夠直接在parse裏面寫。ide

 
 
  1. # -*- coding: utf-8 -*-函數

  2. import scrapy

  3. from scrapy import FormRequest,Request



  4. class ExampleLoginSpider(scrapy.Spider):

  5.    name = "login_"

  6.    allowed_domains = ["example.webscraping.com"]

  7.    start_urls = ['http://example.webscraping.com/user/profile']

  8.    login_url = 'http://example.webscraping.com/places/default/user/login'


  9.    def parse(self, response):

  10.        print(response.text)


  11.    def start_requests(self):

  12.        yield scrapy.Request(self.login_url,callback=self.login)


  13.    def login(self,response):

  14.        formdata = {

  15.            'email':'liushuo@webscraping.com','password':'12345678'}

  16.        yield FormRequest.from_response(response,formdata=formdata,

  17.                                        callback=self.parse_login)

  18.    def parse_login(self,response):

  19.        # print('>>>>>>>>'+response.text)

  20.        if 'Welcome Liu' in response.text:

  21.            yield from super().start_requests()

有的同窗可能問了,login方法裏面不是應該寫reture 麼,其實上面的寫法跟下面的這種寫法是同樣效果,若是再有個CSRF的話,也能夠直接在login裏面寫拿到CSRF信息,寫入到formdata裏面跟用戶名和密碼一塊兒提交。

 
 
  1. return [FormRequest.from_response(response,formdata=formdata,callback=self.parse_login

相關文章
相關標籤/搜索