在諸多的網站中作爬蟲,有很是多的源碼是通過js加密處理,通用的方法就是分析js的加密過程,而後用python模擬加密,最後獲得本身想要的數據。node
例如 案例裏面的有道翻譯python
經過抓包分析發現,js加密的sign數據能夠使用一下方式生成linux
In [6]: from hashlib import md5 In [7]: s = md5() In [8]: s.update("123456".encode()) In [9]: s.hexdigest() Out[9]: 'e10adc3949ba59abbe56e057f20f883e'
該庫能夠運行JavaScript的代碼,極大的簡化了python實現js加密的過程windows
linux函數
pip install pyexecjs
# 第三方庫網站
sudo apt-get install nodejs
# JavaScript的運行環境加密
windows翻譯
pip install pyexecjs
code
In [1]: import execjs In [2]: js = "'red yellow green blue'.split(' ')" In [3]: print(execjs.eval(js)) ['red', 'yellow', 'green', 'blue']
在爬蟲中遇到的不少都是封裝好的函數,因此在python中執行一下JavaScript函數ip
import execjs js = """ function fun1(a, b) { s = a * b; return s } """ ctx = execjs.compile(js) result = ctx.call("fun1", 2, 3) print(result)