python爬蟲的一個常見簡單js反爬

時間 2019-12-13

標籤 python 爬蟲一個常見簡單欄目 Python 简体版

原文原文鏈接

python爬蟲的一個常見簡單js反爬

咱們在寫爬蟲是遇到最多的應該就是js反爬了，今天分享一個比較常見的js反爬，這個我已經在多個網站上見到過了。javascript

我把js反爬分爲參數由js加密生成和js生成cookie等來操做瀏覽器這兩部分，今天說的是第二種狀況。html

目標網站

列表頁url:http://www.hnrexian.com/archives/category/jk。java

正常網站咱們請求url會返回給咱們網頁數據內容等，看看這個網站返回給咱們的是什麼呢？python

咱們把相應中返回的js代碼格式化一下，方便查看。瀏覽器

< script type = "text/javascript" >
function stringToHex(str) {
    var val = "";
    for (var i = 0; i < str.length; i++) {
        if (val == "") val = str.charCodeAt(i).toString(16);
        else val += str.charCodeAt(i).toString(16);
    }
    return val;
}
function YunSuoAutoJump() {
    var width = screen.width;
    var height = screen.height;
    var screendate = width + "," + height;
    var curlocation = window.location.href;
    if ( - 1 == curlocation.indexOf("security_verify_")) {
        document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
    }
    self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate);
} < /script>
  <script>setTimeout("YunSuoAutoJump()", 50);</script >

說好的返回網頁數據源碼呢，這是什麼東西!cookie

js破解思路

js破解提供兩種思路，一種是直接用Python來重寫js內容，實現模擬js的操做，這種通常用於比較簡單的js；還有一種是用Python第三方庫來解析js，好比pyv8,execjs這些（我的以爲execjs比較好用），這種通常用於比較複雜的js解析。python爬蟲

分析返回的js分紅兩個部分。第一部分，定義了stringToHex和YunSuoAutoJump兩個函數。第二部分，50毫秒後執行YunSuoAutoJump這個函數。curl

YunSuoAutoJump這個函數功能是添加一個cookie並去請求一個構造的url，能夠從document.cookie 和 self.location這裏看出。stringToHex這個函數的共能其實就是字符串的轉換，具體js內容能夠參考這個網址https://www.runoob.com/js/js-tutorial.html自行查找。函數

python重寫代碼

那麼接下來就是用python來重寫js啦，重寫後代碼以下。網站

def stringToHex(string):
    length = len(string)
    hex_string = str()
    for i in xrange(length):
        hex_string += hex(ord(string[i]))[2:]
    return hex_string

def get_cookie(url):
    hex_string = stringToHex(url)
    cookie = {"srcurl": hex_string, "path": "/"}
    return cookie

這是那兩個函數，一個用於字符串轉換，一個用於獲取cookie。

最後拿到結果

接下來模擬瀏覽器操做，其中是分爲三部分。第一次，咱們請求目標url，而後返回給咱們js內容；第二次，js添加1個cookie並請求了1個構造出的url；第三次請求原目標url，獲得最終的數據。

這裏咱們用requests.Session來保持鏈接，模擬上面三部的內容。

url = "http://www.hnrexian.com/archives/category/jk"
s = requests.Session()
r = s.get(url)
url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0]
screen_date = "1920,1080"
url_2 = url_2 + stringToHex(screen_date)
url_2 = urljoin(url, url_2)
cookie = get_cookie(url)
s.cookies.update(cookie)
r2 = s.get(url_2)
url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0]
r3 = s.get(url3)
r3.encoding = "gbk"
print r3.text

到這裏咱們就完美獲得最後想要的內容了。

歡迎你們交流分享歐!感興趣能夠關注下我，公衆號python爬蟲筆記。