做者:劉帝偉(微博:@拾毅者)html
原文連接:點擊這裏python
BitTiger尊重原創版權,轉載已通過受權。git
最近忽然對爬蟲興趣倍增,主要是本身想從網上爬點數據來玩玩。前陣子從某房屋出售網爬取了長沙地區的房價以及2016年的成交額,只有幾千條數據,量較少,沒勁o(╯□╰)o,所以將目標成功地轉移到了社交網上,難度顯然大了點。爬取社交網站比較鮮明的特色就是須要登陸,不然不少東西都沒法獲取。作了幾個小Demo以後發現,人人網的登陸還比較簡單,驗證碼的都不用就能夠成功登陸;知乎雖然攜帶驗證碼,但難度算是適中;微博的登陸難度稍微大點,由於不只有驗證碼,還在傳遞參數的時候對用戶名進行了base64加密。在這篇博文裏,主要是以知乎爲例,模擬知乎登陸,至於數據爬取部分我們就暫且不談吧。github
模擬知乎登陸前,先看看本次案例使用的環境及其工具:json
Github源碼下載:https://github.com/csuldw/WSpider.瀏覽器
客戶端與服務端通訊過程的幾個關鍵點:服務器
在抓包的時候,開始使用的是Chrome開發工具中的Network,結果沒有抓到,後來使用Fiddler成功抓取數據。下面逐步來細化上述過程。cookie
首先看看這個登陸頁面(https//www.zhihu.com),也就是咱們登陸時的url地址。app
看到這個頁面,咱們也能夠大概猜想下請求服務器時傳遞了幾個字段,很明顯有:用戶名、密碼、驗證碼以及「記住我」這幾個值。那麼實際上有哪些呢?下面來分分析下。dom
首先查看一下HTML源碼,Google裏可使用CTRL+U查看,而後使用CTRL+F輸入input看看有哪些字段值,詳情以下:
經過源碼,咱們能夠看到,在請求服務器的過程當中還攜帶了一個隱藏字段」_xsrf」。那麼如今的問題是:這些參數在傳遞時是以什麼名字傳遞的呢?這就須要借用其餘工具抓包進行分析了。筆者是Windows系統,這裏使用的是Fiddler(固然,你也可使用其餘的)。
抓包過程比較繁瑣,由於抓到的東西比較多,很難快速的找到須要的信息。關於fiddler,很容易使用,有過不會,能夠去百度搜一下。爲了防止其餘信息干擾,咱們先將fiddler中的記錄清除,而後輸入用戶名(筆者使用的是郵箱登陸)、密碼等信息登陸,相應的在fiddler中會有以下結果:
備註:若是是使用手機登陸,則對應fiddler中的url是「/login/phone_num」。
爲了查看詳細的請求參數,咱們左鍵單機「/login/email」,能夠看到下列信息:
請求方式爲POST,請求的url爲https://www.zhihu.com/login/email。而從From Data能夠看出,相應的字段名稱以下:
對於這五個字段,代碼中email、password以及captcha都是手動輸入的,remember初始化爲true。剩下的_xsrf則能夠根據登陸頁面的源文件,取input爲_xsrf的value值便可。
對於驗證碼,則須要經過額外的請求,該連接能夠經過定點查看源碼看出:
連接爲https://www.zhihu.com/captcha.gif?type=login,這裏省略了ts(經測試,可省略掉)。如今,可使用代碼進行模擬登陸。
舒適提示:若是使用的是手機號碼進行登陸,則請求的url爲https://www.zhihu.com/login/phone_num,同時email字段名稱將變成「phone_num」。
在編寫代碼實現知乎登陸的過程當中,筆者將一些功能封裝成了一個簡單的類WSpider,以便複用,文件名稱爲WSpider.py。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 |
# -*- coding: utf-8 -*- """ Created on Thu Nov 02 14:01:17 2016 @author: liudiwei """ import urllib import urllib2 import cookielib import logging class WSpider(object): def __init__(self): #init params self.url_path = None self.post_data = None self.header = None self.domain = None self.operate = None #init cookie self.cookiejar = cookielib.LWPCookieJar() self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookiejar)) urllib2.install_opener(self.opener) def setRequestData(self, url_path=None, post_data=None, header=None): self.url_path = url_path self.post_data = post_data self.header = header def getHtmlText(self, is_cookie=False): if self.post_data == None and self.header == None: request = urllib2.Request(self.url_path) else: request = urllib2.Request(self.url_path, urllib.urlencode(self.post_data), self.header) response = urllib2.urlopen(request) if is_cookie: self.operate = self.opener.open(request) resText = response.read() return resText """ Save captcha to local """ def saveCaptcha(self, captcha_url, outpath, save_mode='wb'): picture = self.opener.open(captcha_url).read() #用openr訪問驗證碼地址,獲取cookie local = open(outpath, save_mode) local.write(picture) local.close() def getHtml(self, url): page = urllib.urlopen(url) html = page.read() return html """ 功能:將文本內容輸出至本地 @params content:文本內容 out_path: 輸出路徑 """ def output(self, content, out_path, save_mode="w"): fw = open(out_path, save_mode) fw.write(content) fw.close() """#EXAMPLE logger = createLogger('mylogger', 'temp/logger.log') logger.debug('logger debug message') logger.info('logger info message') logger.warning('logger warning message') logger.error('logger error message') logger.critical('logger critical message') """ def createLogger(self, logger_name, log_file): # 建立一個logger logger = logging.getLogger(logger_name) logger.setLevel(logging.INFO) # 建立一個handler,用於寫入日誌文件 fh = logging.FileHandler(log_file) # 再建立一個handler,用於輸出到控制檯 ch = logging.StreamHandler() # 定義handler的輸出格式formatter formatter = logging.Formatter('%(asctime)s | %(name)s | %(levelname)s | %(message)s') fh.setFormatter(formatter) ch.setFormatter(formatter) # 給logger添加handler logger.addHandler(fh) logger.addHandler(ch) return logger |
關於模擬登陸知乎的源碼,保存在zhiHuLogin.py文件,內容以下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 |
# -*- coding: utf-8 -*- """ Created on Thu Nov 02 17:07:17 2016 @author: liudiwei """ import urllib from WSpider import WSpider from bs4 import BeautifulSoup as BS import getpass import json import WLogger as WLog """ 2016.11.03 因爲驗證碼問題暫時沒法正常登錄 2016.11.04 成功登陸,期間出現下列問題 驗證碼錯誤返回:{ "r": 1, "errcode": 1991829, "data": {"captcha":"驗證碼錯誤"}, "msg": "驗證碼錯誤" } 驗證碼過時:{ "r": 1, "errcode": 1991829, "data": {"captcha":"驗證碼回話無效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "驗證碼回話無效 :(" } 登陸:{"r":0, "msg": "登陸成功"} """ def zhiHuLogin(): spy = WSpider() logger = spy.createLogger('mylogger', 'temp/logger.log') homepage = r"https://www.zhihu.com/" html = spy.opener.open(homepage).read() soup = BS(html, "html.parser") _xsrf = soup.find("input", {'type':'hidden'}).get("value") #根據email和手機登錄獲得的參數名不同,email登錄傳遞的參數是‘email’,手機登錄傳遞的是‘phone_num’ username = raw_input("Please input username: ") password = getpass.getpass("Please input your password: ") account_name = None if "@" in username: account_name = 'email' else: account_name = 'phone_num' #保存驗證碼 logger.info("save captcha to local machine.") captchaURL = r"https://www.zhihu.com/captcha.gif?type=login" #驗證碼url spy.saveCaptcha(captcha_url=captchaURL, outpath="temp/captcha.jpg") #temp目錄需手動建立 #請求的參數列表 post_data = { '_xsrf': _xsrf, account_name: username, 'password': password, 'remember_me': 'true', 'captcha':raw_input("Please input captcha: ") } #請求的頭內容 header ={ 'Accept':'*/*' , 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8', 'X-Requested-With':'XMLHttpRequest', 'Referer':'https://www.zhihu.com/', 'Accept-Language':'en-GB,en;q=0.8,zh-CN;q=0.6,zh;q=0.4', 'Accept-Encoding':'gzip, deflate, br', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36', 'Host':'www.zhihu.com' } url = r"https://www.zhihu.com/login/" + account_name spy.setRequestData(url, post_data, header) resText = spy.getHtmlText() jsonText = json.loads(resText) if jsonText["r"] == 0: logger.info("Login success!") else: logger.error("Login Failed!") logger.error("Error info ---> " + jsonText["msg"]) text = spy.opener.open(homepage).read() #從新打開主頁,查看源碼可知此時已經處於登陸狀態 spy.output(text, "out/home.html") #out目錄需手動建立 if __name__ == '__main__': zhiHuLogin() |
關於源碼的分析,能夠參考代碼中的註解。
在控制檯中運行python zhiHuLogin.py,而後按提示輸入相應的內容,最後可獲得如下不一樣的結果(舉了三個實例):
結果一:密碼錯誤
結果二:驗證碼錯誤
結果三:成功登陸
經過代碼,能夠成功的登陸到知乎,接着若是要爬取知乎裏面的內容,就比較方便了。