網絡爬蟲之記一次js逆向解密經歷

1 引言

數月前寫過某網站(請原諒個人掩耳盜鈴)的爬蟲,這兩天須要從新採集一次,用的是scrapy-redis框架,本覺得二次爬取能夠輕鬆完成的,可沒想到爬蟲啓動沒幾秒,出現了大堆的重試提示,內心頓時就咯噔一下,清閒時光估計要結束了。
仔細分析後,發現是獲取店鋪列表的請求出現問題,經過瀏覽器抓包,發現請求頭參數中相比以前多了一個X-Shard和x-uab參數,以下圖所示:
X-Shard 卻是沒什麼問題,一看就是興趣點的經緯度,但x-uab看過以後就讓人內心苦了,js加密啊,只能去逆向解密了。

2 js逆向求解

最直接的思路是根據「x-uab」關鍵字在全部關鍵中查找(chrome瀏覽器-source中按ctrl + shift + F快捷鍵),結果以下所示:
接下來,打個斷點調試一下:在數字那裏點一下,數字位置出現藍點,表示添加斷點成功,而後刷新獲取店鋪列表的頁面,程序會在斷點處停下。以下所示:
在控制檯調試o.getUA()函數,看一下輸出:
果真是,證實猜想沒錯,就是這個o.getUA()函數負責生成請求頭中的x-uab參數。
繼續向下查看這個getUA()函數的引用(把光標放在要查看的函數上,就能夠查看這個函數的引用),就是下圖這個函數:
圖中的s就是咱們要的x-uab參數,下圖在控制檯輸出能夠證實:
因此,u-xab是這裏的e生成的,而函數e傳入的參數中,第一個是常量2,第二個參數a是undefined,呵,看起來沒有傳其它參數。繼續向下找這個e(2,a)函數:
就是這個function e(r, i, n, h, p) 方法,直接運行能夠獲取加密後的參數。把這個function e(r, i, n, h, p) 方法所有代碼取出來,另存爲一個js文件。

3 擼代碼

3.1 方案一

你覺得上面找出生成x-uab的js代碼,就大功告成了嗎?少年,you are too young too simple
怎麼把這段js腳本運行起來,纔是關(nan)鍵(dian)。
這個function e(r, i, n, h, p) 函數有近4萬行代碼,從新用Python實現難(jiu)度(shi)有(bu)點(ke)大(neng)。因此,我選擇直接用Python來執行這段js腳本。
怎麼用python執行js腳本,度娘會給你一堆資料,本身查吧。我這裏選擇的是execjs
由於在上面複製出來的腳本中,只單單定義了一個e(r, i, n, h, p)方法,並無調用這個方法,因此,我要要在js文件的末尾添加一些代碼來調用:
function getParam() {
    var a;
    var  param = e(2,a);
    return param
};
而後,開始擼Python代碼吧:
import execjs
 
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)
嘗試執行,心涼,代碼異常:
execjs._exceptions.ProgramError: TypeError: 'window' 未定義
window 對象估計是瀏覽器打開是建立的,蘊含瀏覽器的信息,因此用Python來執行這段代碼時,沒有這個對西鄉。原本想嘗試僞造window對象,但查找以後發現js腳本中上百個地方用到window,這還沒完,代碼通過混淆,在下水平不夠,無法追根溯源(這地方困擾了我許久,哪位前輩若是知道方法,請告知)。
後來,從一個前輩那裏(感謝前輩)獲知一個方法繞過去。這個前輩的方法是將execjs的引擎換成PhantomJS這個無頭瀏覽器(以前用的引擎是node.js),換句話說就是用PhantomJS來執行js腳本,PhantomJS是一個瀏覽器,天然就會建立window對象。
使用PhantomJS以前,須要下載它的驅動,而後放下Python代碼統一目錄下。對以前的Python代碼也進行修改:
import execjs
 
import os
os.environ["EXECJS_RUNTIME"] = "PhantomJS"
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)
果真,按照這個方法,成功獲取加密字符串。

3.2 方案二

事實上,這個方案二纔是我在出現未定義window對象異常後首先嚐試的方法,不過由於往js代碼中添加的js腳本有問題,覺得行不通,因此請教前輩,獲得了方案一。
方案二的思路和方案一相似,不過更加粗暴一些。不是由於沒在瀏覽器執行,形成沒有window對象嗎?那我就模擬瀏覽器來執行。
在執行以前,一樣要修改js腳本,在js文件末尾調用e方法,添加以下代碼:
var a;
var  param = e(2,a);
return param;
切記:不要放在任何函數裏面,我以前就是由於將這段代碼放在函數裏頭強制執行,致使的結果就是在瀏覽器裏能夠獲取加密字符串,可是在Python中獲取到的倒是None
模擬瀏覽器用的selenium和chrome的webDriver,代碼以下:
from selenium import webdriver
 
browser = webdriver.Chrome(executable_path='chromedriver.exe')
with open('eleme.js', 'r') as f:
    js = f.read()
print(browser.execute_script(js))
這個方法也是能夠得到加密以後的字符串。
最後,有必要說一下的是,若是須要獲取大量的x-uab,採用方案二效率會高一下,由於採用方案二的話,能夠自打開一個瀏覽器(都調用一個webdriver對象),而後快速執行js,返回加密字符串

4 總結

一次js逆向解密,算是完成了吧。可是也留下了一些問題:
(1)使用chrome斷點調試時,js腳本都是壓縮混淆以後的,經過chrome的pretty print功能(也就是說那對花括號)能夠格式美化,可是,有的時候卻會失敗,就像下圖,格式化後,仍是一團糟:
這個問題耽擱了我很長時間,無法調試啊!
(2)在下js基礎不行,很困惑爲何運行時,先經過o.getUA()調用e函數內的嵌套函數,而後e函數內部嵌套函數中調用e方法自己,這是什麼操做?函數調用不都應該先外層函數,而後再調用嵌套函數嗎?
(3)若是不適用瀏覽器執行js的方法,就只能替換window對象,這該如何操做?
(4)這個e函數有近4萬行,一個加密函數這麼多代碼,我可不信,裏面確定不少事混淆視聽用的,但我嘗試調試追蹤過,只能說混淆以後讓我無從追蹤,頭暈。怎麼才能簡化這段腳本呢?
若是哪位前輩能夠解惑,請必定告知,不勝感激!拜謝!
相關文章
相關標籤/搜索