咱們在寫爬蟲是遇到最多的應該就是js反爬了,今天分享一個比較常見的js反爬,這個我已經在多個網站上見到過了。javascript
我把js反爬分爲參數由js加密生成和js生成cookie等來操做瀏覽器這兩部分,今天說的是第二種狀況。html
列表頁url:http://www.hnrexian.com/archives/category/jk。java
正常網站咱們請求url會返回給咱們網頁數據內容等,看看這個網站返回給咱們的是什麼呢?python
咱們把相應中返回的js代碼格式化一下,方便查看。瀏覽器
< script type = "text/javascript" > function stringToHex(str) { var val = ""; for (var i = 0; i < str.length; i++) { if (val == "") val = str.charCodeAt(i).toString(16); else val += str.charCodeAt(i).toString(16); } return val; } function YunSuoAutoJump() { var width = screen.width; var height = screen.height; var screendate = width + "," + height; var curlocation = window.location.href; if ( - 1 == curlocation.indexOf("security_verify_")) { document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;"; } self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate); } < /script> <script>setTimeout("YunSuoAutoJump()", 50);</script >
說好的返回網頁數據源碼呢,這是什麼東西!cookie
js破解提供兩種思路,一種是直接用Python來重寫js內容,實現模擬js的操做,這種通常用於比較簡單的js;還有一種是用Python第三方庫來解析js,好比pyv8,execjs這些(我的以爲execjs比較好用),這種通常用於比較複雜的js解析。python爬蟲
分析返回的js分紅兩個部分。第一部分,定義了stringToHex和YunSuoAutoJump兩個函數。第二部分,50毫秒後執行YunSuoAutoJump這個函數。curl
YunSuoAutoJump這個函數功能是添加一個cookie並去請求一個構造的url,能夠從document.cookie 和 self.location這裏看出。stringToHex這個函數的共能其實就是字符串的轉換,具體js內容能夠參考這個網址https://www.runoob.com/js/js-tutorial.html自行查找。函數
那麼接下來就是用python來重寫js啦,重寫後代碼以下。網站
def stringToHex(string): length = len(string) hex_string = str() for i in xrange(length): hex_string += hex(ord(string[i]))[2:] return hex_string def get_cookie(url): hex_string = stringToHex(url) cookie = {"srcurl": hex_string, "path": "/"} return cookie
這是那兩個函數,一個用於字符串轉換,一個用於獲取cookie。
接下來模擬瀏覽器操做,其中是分爲三部分。第一次,咱們請求目標url,而後返回給咱們js內容;第二次,js添加1個cookie並請求了1個構造出的url;第三次請求原目標url,獲得最終的數據。
這裏咱們用requests.Session來保持鏈接,模擬上面三部的內容。
url = "http://www.hnrexian.com/archives/category/jk" s = requests.Session() r = s.get(url) url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0] screen_date = "1920,1080" url_2 = url_2 + stringToHex(screen_date) url_2 = urljoin(url, url_2) cookie = get_cookie(url) s.cookies.update(cookie) r2 = s.get(url_2) url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0] r3 = s.get(url3) r3.encoding = "gbk" print r3.text
到這裏咱們就完美獲得最後想要的內容了。
歡迎你們交流分享歐!感興趣能夠關注下我,公衆號python爬蟲筆記。