Python爬蟲實戰之（四）| 模擬登陸京東商城

時間 2019-11-09

原文原文鏈接

做者：xiaoyu
微信公衆號：Python數據科學
知乎：Python數據分析師git

解讀爬蟲中HTTP的祕密（基礎篇）
解讀爬蟲中HTTP的祕密（高階篇）github

前兩篇和你們分享了爬蟲中http的一些概念和使用方法，基礎篇咱們主要介紹了http的請求頭，高級篇咱們主要介紹了cookie和session（具體能夠點擊上面連接進行回顧）。但其實在爬蟲中還有不少關於http的內容須要瞭解，例如 token，oauth等。對於這些概念博主將在後續文章中逐一的詳細介紹，本篇主要針對前兩篇內容與你們分享一個模擬登陸的實戰例子。算法

開始想以知乎爲例，可是看到網上關於知乎模擬登陸的教程太多了，因此就以「京東」爲例。segmentfault

你們都知道，京東是不須要登陸就能夠訪問主頁內容的，所以模擬登陸的意義在於查看我的信息，好比能夠獲取我的的交易信息（購物車商品，購物歷史記錄，待收貨商品信息等），或者賣家的商品銷售信息和評論等等。api

好了，瞭解背景事後，讓咱們開始模擬登陸吧。瀏覽器

準備工做

你們都知道，模擬登陸其實就是經過http的post請求方式來提交用戶信息的（用戶名和密碼）。對於瀏覽器而言，只輸入用戶名和密碼就能夠登錄了（偶爾有驗證碼），那是由於瀏覽器在背後都幫你處理好了。而爬蟲的模擬登陸過程須要咱們本身解決，所以咱們須要弄清楚瀏覽器的那些背後操做是如何進行的才能對症下藥。安全

難點分析：服務器

尋找提交表單所需字段信息
cookie信息的獲取和使用
驗證碼的處理

咱們打開瀏覽器，博主用的Chrome瀏覽器。首先使用Ctrl+Shift+N進入乾淨的無痕模式，防止以前的cookie數據形成干擾。微信

輸入了京東的登錄網址 https://passport.jd.com/new/l...，進入以下登陸界面。cookie

表單字段信息

如今咱們經過開發者工具來看看瀏覽器背後都幹了什麼吧。有的朋友提問到，輸入用戶名和密碼後頁面直接跳轉到主頁面了，看不到咱們要的數據了。其實這裏只須要故意將你的密碼輸錯不進入跳轉就能夠解決了。

點擊登陸，而後咱們看到有個FormData，這就是瀏覽器每次向服務器提交的表單信息。

第一眼看過去感受快要無望了。可是彆着急，這些字段信息其實都是有處可尋的。咱們Ctrl+U打開京東登陸頁面的源碼裏，而後Ctrl+F 試着搜一搜這些字段信息。

先搜第一個uuid字段，發現它就在源碼中，緊着後面是一些其它的字段信息，那就齊活了。咱們看到除了loginname，nloginpwd，authcode，其餘的字段全都是hidden的類型，也就是被隱藏了的字段。

好了，那下一步就天然知道幹什麼了。咱們能夠直接請求登陸頁面源碼提取字段信息了。

Cookie的處理

Cookie能夠經過使用http的Cookiejar定製opener進行獲取，也能夠直接使用requests模塊來實現。

requests模塊實現起來比較方便，由於內部已經封裝好了自動處理Cookie的功能。第一次發送請求能夠經過服務器獲取Cookie，後續的請求則會自動帶着已獲取的Cookie信息進行發送。固然，也能夠手動添加Cookie，手動添加的Cookie優先級高，將會覆蓋默認的信息。

爲了說明模擬登陸的用法，本篇博主將使用簡便的requests模塊來完成對Cookie的處理。

驗證碼的處理

驗證碼的處理方法也有多種，能夠分爲自動識別的和手動識別。

手動處理驗證碼就是經過驗證碼連接將驗證碼圖片下載到本地，而後手動敲入完成信息錄入。
自動識別是使用一些高級的算法技術來完成的，可使用OCR智能圖文識別，機器學習進行識別訓練等。

本篇將選擇手動錄入驗證碼，旨在理解模擬登陸的過程。

代碼實現

初始信息配置

建立了一個JD_crawl的類，設置了實例的headers和session會話對象，以及三個後面請求須要用到的url。
由於整個登陸是一個完整的過程，因此後續若干請求須要共同使用同一個session會話對象。

提取表單登陸信息

首先對登陸的login_url發起請求，獲取登錄頁面源碼後經過BeautifulSoup解析工具ccs選擇器來提取隱藏字段信息。
loginname，nloginpwd，authcode三個非隱藏字段須要用戶手動錄入。
對因而否須要錄入驗證碼的問題，能夠經過請求https://passport.jd.com/uc/sh...（代碼中的auth_url）來判斷。

請求結果是一個以下格式的字符串。

請求結果： ({"verifycode":xxx})
xxx：true 或者 false

所以能夠簡單的查看結果中是否有true來判斷是否須要驗證碼。

若是爲true就須要調用驗證碼函數方法，將驗證碼圖片下載，輸入圖片上的驗證碼，並賦給authcode字段進行表單提交完成登陸。
若是爲false則不須要驗證碼，authcode字段爲空字符串。

通常當咱們屢次輸入了錯誤的帳號或密碼時，構成安全危險，就會提示輸入驗證碼。

獲取驗證碼

從源碼獲取的驗證碼連接是一個相對連接src2

src2="//authcode.jd.com/verify/image?a=1&acid=dcb4370b-2763-44e6-83ff-4b89bc01193d&uid=dcb4370b-2763-44e6-83ff-4b89bc01193d"

所以，咱們須要將它補全，在src2前面拼接字符串 http: 。可是當咱們嘗試這個url的時候會發現圖片並無下載成功，爲何呢？

由於還須要在結尾加上時間戳，接着看後邊的 onclick，它的字符串中有和src2徹底同樣的連接，但在結尾處多了 &yys= ''。經過觀察內容發現有 date 和 time 字樣，因而能夠判斷這多是一個時間戳字符串。

onclick="this.src= document.location.protocol +'//authcode.jd.com/verify/image?a=1&acid=dcb4370b-2763-44e6-83ff-4b89bc01193d&uid=dcb4370b-2763-44e6-83ff-4b89bc01193d&yys='+new Date().getTime();$('#authcode').val('');"

小提示：

時間戳(引自百度百科)：