小試牛刀：使用Python模擬登陸知乎

時間 2019-12-10

原文原文鏈接

做者：劉帝偉（微博：@拾毅者）html

原文連接：點擊這裏python

BitTiger尊重原創版權，轉載已通過受權。git

最近忽然對爬蟲興趣倍增，主要是本身想從網上爬點數據來玩玩。前陣子從某房屋出售網爬取了長沙地區的房價以及2016年的成交額，只有幾千條數據，量較少，沒勁o(╯□╰)o，所以將目標成功地轉移到了社交網上，難度顯然大了點。爬取社交網站比較鮮明的特色就是須要登陸，不然不少東西都沒法獲取。作了幾個小Demo以後發現，人人網的登陸還比較簡單，驗證碼的都不用就能夠成功登陸；知乎雖然攜帶驗證碼，但難度算是適中；微博的登陸難度稍微大點，由於不只有驗證碼，還在傳遞參數的時候對用戶名進行了base64加密。在這篇博文裏，主要是以知乎爲例，模擬知乎登陸，至於數據爬取部分我們就暫且不談吧。github

環境與開發工具

模擬知乎登陸前，先看看本次案例使用的環境及其工具：json

Windows 7 + Python 2.75
Chrome + Fiddler: 用來監控客戶端與服務器的通信狀況，以及查找相關參數的位置。

Github源碼下載：https://github.com/csuldw/WSpider.瀏覽器

模擬過程概述

使用Google瀏覽器結合Fiddler來監控客戶端與服務端的通信過程；
根據監控結果，構造請求服務器過程當中傳遞的參數；
使用Python模擬參數傳遞過程。

客戶端與服務端通訊過程的幾個關鍵點：服務器

登陸時的url地址。
登陸時提交的參數【params】，獲取方式主要有兩種：第1、分析頁面源代碼，找到表單標籤及屬性。適應比較簡單的頁面。第2、使用抓包工具，查看提交的url和參數，一般使用的是Chrome的開發者工具中的Network， Fiddler等。
登陸後跳轉的url。

在抓包的時候，開始使用的是Chrome開發工具中的Network，結果沒有抓到，後來使用Fiddler成功抓取數據。下面逐步來細化上述過程。cookie

參數探索

首先看看這個登陸頁面(https//www.zhihu.com)，也就是咱們登陸時的url地址。app

看到這個頁面，咱們也能夠大概猜想下請求服務器時傳遞了幾個字段，很明顯有：用戶名、密碼、驗證碼以及「記住我」這幾個值。那麼實際上有哪些呢？下面來分分析下。dom

首先查看一下HTML源碼，Google裏可使用CTRL+U查看，而後使用CTRL+F輸入input看看有哪些字段值，詳情以下：

經過源碼，咱們能夠看到，在請求服務器的過程當中還攜帶了一個隱藏字段」_xsrf」。那麼如今的問題是：這些參數在傳遞時是以什麼名字傳遞的呢？這就須要借用其餘工具抓包進行分析了。筆者是Windows系統，這裏使用的是Fiddler（固然，你也可使用其餘的）。

抓包過程比較繁瑣，由於抓到的東西比較多，很難快速的找到須要的信息。關於fiddler，很容易使用，有過不會，能夠去百度搜一下。爲了防止其餘信息干擾，咱們先將fiddler中的記錄清除，而後輸入用戶名（筆者使用的是郵箱登陸）、密碼等信息登陸，相應的在fiddler中會有以下結果:

備註：若是是使用手機登陸，則對應fiddler中的url是「/login/phone_num」。

爲了查看詳細的請求參數，咱們左鍵單機「/login/email」，能夠看到下列信息：

請求方式爲POST，請求的url爲https://www.zhihu.com/login/email。而從From Data能夠看出，相應的字段名稱以下：

_xsrf
captcha
email
password
remember

對於這五個字段，代碼中email、password以及captcha都是手動輸入的，remember初始化爲true。剩下的_xsrf則能夠根據登陸頁面的源文件，取input爲_xsrf的value值便可。

對於驗證碼，則須要經過額外的請求，該連接能夠經過定點查看源碼看出：

連接爲https://www.zhihu.com/captcha.gif?type=login，這裏省略了ts（經測試，可省略掉）。如今，可使用代碼進行模擬登陸。

舒適提示：若是使用的是手機號碼進行登陸，則請求的url爲https://www.zhihu.com/login/phone_num，同時email字段名稱將變成「phone_num」。

模擬源碼

在編寫代碼實現知乎登陸的過程當中，筆者將一些功能封裝成了一個簡單的類WSpider，以便複用，文件名稱爲WSpider.py。

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 02 14:01:17 2016

@author: liudiwei
"""
import urllib
import urllib2
import cookielib
import logging  

class WSpider(object):
    def __init__(self):
        #init params
        self.url_path = None
        self.post_data = None
        self.header = None
        self.domain = None
        self.operate = None
        #init cookie
        self.cookiejar = cookielib.LWPCookieJar()
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookiejar))
        urllib2.install_opener(self.opener)

    def setRequestData(self, url_path=None, post_data=None, header=None):
        self.url_path = url_path
        self.post_data = post_data
        self.header = header

    def getHtmlText(self, is_cookie=False):
        if self.post_data == None and self.header == None:
            request = urllib2.Request(self.url_path)
        else:
            request = urllib2.Request(self.url_path, urllib.urlencode(self.post_data), self.header)
        response = urllib2.urlopen(request)
        if is_cookie: 
            self.operate = self.opener.open(request)
        resText = response.read()
        return resText 

    """
    Save captcha to local    
    """    
    def saveCaptcha(self, captcha_url, outpath, save_mode='wb'):
        picture = self.opener.open(captcha_url).read() #用openr訪問驗證碼地址,獲取cookie
        local = open(outpath, save_mode)
        local.write(picture)
        local.close()    
        
    def getHtml(self, url):
        page = urllib.urlopen(url)
        html = page.read()
        return html

    """
    功能：將文本內容輸出至本地
    @params 
        content：文本內容
        out_path: 輸出路徑
    """
    def output(self, content, out_path, save_mode="w"):
        fw = open(out_path, save_mode)
        fw.write(content)
        fw.close()

    """#EXAMPLE 
    logger = createLogger('mylogger', 'temp/logger.log')
    logger.debug('logger debug message')  
    logger.info('logger info message')  
    logger.warning('logger warning message')  
    logger.error('logger error message')  
    logger.critical('logger critical message')  
    """    
    def createLogger(self, logger_name, log_file):
        # 建立一個logger
        logger = logging.getLogger(logger_name)  
        logger.setLevel(logging.INFO)  
        # 建立一個handler，用於寫入日誌文件    
        fh = logging.FileHandler(log_file)  
        # 再建立一個handler，用於輸出到控制檯    
        ch = logging.StreamHandler()  
        # 定義handler的輸出格式formatter    
        formatter = logging.Formatter('%(asctime)s | %(name)s | %(levelname)s | %(message)s')  
        fh.setFormatter(formatter)  
        ch.setFormatter(formatter)  
        # 給logger添加handler    
        logger.addHandler(fh)  
        logger.addHandler(ch)  
        return logger

關於模擬登陸知乎的源碼，保存在zhiHuLogin.py文件，內容以下：

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 02 17:07:17 2016

@author: liudiwei
"""
import urllib
from WSpider import WSpider
from bs4 import BeautifulSoup as BS
import getpass
import json
import WLogger as WLog

"""
2016.11.03 因爲驗證碼問題暫時沒法正常登錄
2016.11.04 成功登陸，期間出現下列問題
驗證碼錯誤返回：{ "r": 1, "errcode": 1991829, "data": {"captcha":"驗證碼錯誤"}, "msg": "驗證碼錯誤" }
驗證碼過時：{ "r": 1, "errcode": 1991829, "data": {"captcha":"驗證碼回話無效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "驗證碼回話無效 :(" }
登陸：{"r":0, "msg": "登陸成功"}
"""
def zhiHuLogin():
    spy = WSpider()
    logger = spy.createLogger('mylogger', 'temp/logger.log')
    
    homepage = r"https://www.zhihu.com/"    
    html = spy.opener.open(homepage).read()
    soup = BS(html, "html.parser")
    _xsrf = soup.find("input", {'type':'hidden'}).get("value")

    #根據email和手機登錄獲得的參數名不同，email登錄傳遞的參數是‘email’，手機登錄傳遞的是‘phone_num’
    username = raw_input("Please input username: ")
    password = getpass.getpass("Please input your password: ")
    account_name = None
    if "@" in username:
        account_name = 'email'
    else:
        account_name = 'phone_num' 

    #保存驗證碼
    logger.info("save captcha to local machine.")
    captchaURL = r"https://www.zhihu.com/captcha.gif?type=login" #驗證碼url
    spy.saveCaptcha(captcha_url=captchaURL, outpath="temp/captcha.jpg") #temp目錄需手動建立

    #請求的參數列表
    post_data = {
        '_xsrf': _xsrf,
        account_name: username,
        'password': password,
        'remember_me': 'true',
        'captcha':raw_input("Please input captcha: ")
    }

    #請求的頭內容
    header ={
        'Accept':'*/*' ,
        'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With':'XMLHttpRequest',
        'Referer':'https://www.zhihu.com/',
        'Accept-Language':'en-GB,en;q=0.8,zh-CN;q=0.6,zh;q=0.4',
        'Accept-Encoding':'gzip, deflate, br',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
        'Host':'www.zhihu.com'
    }

    url = r"https://www.zhihu.com/login/" + account_name
    spy.setRequestData(url, post_data, header)
    resText = spy.getHtmlText()
    jsonText = json.loads(resText)

    if jsonText["r"] == 0:
        logger.info("Login success!")
    else:
        logger.error("Login Failed!")
        logger.error("Error info ---> " + jsonText["msg"])
        
    text = spy.opener.open(homepage).read() #從新打開主頁，查看源碼可知此時已經處於登陸狀態
    spy.output(text, "out/home.html") #out目錄需手動建立
    
if __name__ == '__main__':
    zhiHuLogin()

關於源碼的分析，能夠參考代碼中的註解。