python爬蟲scrapy模擬登陸demo

時間 2021-03-18

標籤 python web json api python爬蟲運維 dom scrapy ide 函數欄目 Python 简体版

原文原文鏈接

python爬蟲scrapy模擬登陸demo

背景：初來乍到的pythoner，剛開始的時候以爲全部的網站無非就是分析HTML、json數據，可是忽略了不少的一個問題，有不少的網站爲了反爬蟲，除了須要高可用代理IP地址池外，還須要登陸。例如知乎，不少信息都是須要登陸之後才能爬取，可是頻繁登陸後就會出現驗證碼（有些網站直接就讓你輸入驗證碼），這就坑了，畢竟運維同窗很辛苦，該反的還得反，那咱們怎麼辦呢？這不說驗證碼的事兒，你能夠本身手動輸入驗證，或者直接用雲打碼平臺，這裏咱們介紹一個scrapy的登陸用法。python

測試登陸地址：http://example.webscraping.com/places/default/user/loginweb

測試主頁：http://example.webscraping.com/user/profilejson

一、這裏不在敘述如何建立scrapy項目和spider，能夠看我前面的博客api

咱們在這裏作了一個簡單的介紹，咱們都知道scrapy的基本請求流程是startrequest方法遍歷starturls列表，而後makerequestsfromurl方法，裏面執行Request方法，請求starturls裏面的地址，可是這裏咱們用的再也不是GET方法，而用的是POST方法，也就常說的登陸。python爬蟲

一、首先咱們改寫start_reqeusts方法，直接GET登陸頁面的HTML信息（有些人說你不是POST登陸麼，幹嗎還GET，彆着急，你得先GET到登陸頁面的登陸信息，才知道登陸的帳戶、密碼等怎麼提交，往哪裏提交）運維

二、startrequest方法GET到數據後，用callback參數，執行拿到response後要接下來執行哪一個方法，而後在login方法裏面寫入登陸用戶名和密碼（仍是老樣子，必定要用dict），而後只用Request子類scrapy.FormRequest這個方法提交數據，這我一個的是FormRequest.fromresponse方m_法。dom

有些人會問，這個from__response的基本使用是條用是須要傳入一個response對象做爲第一個參數，這個方法會從頁面中form表單中，幫助用戶建立FormRequest對象，最最最最重要的是它會幫你把隱藏的input標籤中的信息自動跳入表達，使用這個中方法，咱們直接寫用戶名和密碼便可，咱們在最後面再介紹傳統方法。scrapy

三、parselogin方法是提交完表單後callback回調函數指定要執行的方法，爲了驗證是否成功。這裏咱們直接在response中搜索Welcome Liu這個字眼就證實登陸成功。這個好理解，重點是yield from super().startresquests()，這個表明着若是一旦登陸成功後，就直接帶着登陸成功後Cookie值，方法start_urls裏面的地址。這樣的話登陸成功後的response能夠直接在parse裏面寫。ide