其實在之前就盯上 有道翻譯了
的,可是因爲時間問題一直沒有研究(個人 騷操做還在後面 ,記得關注),本文主要講解如何用python調用有道翻譯,講解 這個爬蟲與有道翻譯 的js「 鬥爭
」的過程!javascript
對於一個網站,首先確定要的就是分析,分析其中的網頁規則java
分析urlpython
進入有道翻譯你會發現它的url是沒有變化的,也就是說它的請求是經過ajax異步交互的。點擊F12,很容易在 XHR 中找到這個交互的請求,點擊查看信息,你會發現一串參數,其中有幾個仍是加密了的,啥salt鹽啥的。先有個數。web
ajax
分析參數01json
能夠大膽猜想:這個關鍵參數確定在一塊。咱們搜索 salt
,而後正常的點擊,格式化展開,在js中再次搜索 salt
。想找相關salt附近看看 能不能找到斷點 進行調試!固然,最終你能夠找到11個相關內容能夠在每一個附近進行斷點調試。你這樣樂意找到相關位置關鍵加密字段和函數。瀏覽器
在這裏插入圖片描述cookie
在這裏插入圖片描述app
在這裏插入圖片描述異步
分析參數02
此次,我們使用瀏覽器調用堆棧的功能,查看js執行的堆棧進行查找。直接點擊到對應模塊打斷點便可進行觀察。最終你會找到這個位置 generateSaltSign(n)
的這個函數,主要加密函數都在裏面執行
在這裏插入圖片描述
在這裏插入圖片描述
加密分析
其實有道翻譯的加密是比較簡單的了,你一看,
navigator.appVersion
是啥是吧,我打印一看。就是 瀏覽器頭進行md5加密的嘛 ,能夠固定不變的,也就是說這個 bv(t)
參數它能夠是固定不變的。ts
不就是13位當前時間戳嗎!salt
不就是時間戳後面加上100內的隨機數嗎,隨便取一個就行。sign
不就是 "fanyideskweb" + 翻譯的字符串 + salt + "n%A-rKaT5fb[Gy?;N5@Tj"
這麼一串串數字而後 md5加密的嘛!經過後面的分析發現這些參數並無變化。因此此次生成的是惟一的,可是有一個前提是5000字之內,若是超出5000字他會截取前5000字,這點須要注意一下。
注意點
既然有了上面的規則,那麼我們就能夠經過這部分的規則和抓包的信息整合用python模擬完成js的事件,發送請求。這裏面有幾點須要注意的。
md5加密模塊
, 時間time模塊
,可以作出一些等價的一些轉化。恰好,py的 hashlib
和 time
模塊 can fullfill 你。這個問題解決。header
,你們必定不要麻批大意。這個content—length,通過個人經驗告訴我它若是填錯了就會報錯,而且不填通過抓包分析系統會自動生成。因此不要計算主體長度的, 這個參數必定要省略 。 不放cookie會報錯 ,放了cookie通過測試你會發現有些能夠該甚至無關緊要,有些必須聽從其樣式。而 cookie 中必須聽從的就是 OUTFOX_SEARCH_USER_ID=-1053218418@117.136.67.240
即 數字+@+ip形式地址
。多是爲了檢驗而用,這個能夠直接進行模擬。
請求代碼
返回結果是一串json,直接拿便可!
import requests import hashlib import time import urllib.parse # 建立md5對象 def nmd5(str): m = hashlib.md5() # Tips # 此處必須encode # 若寫法爲m.update(str) 報錯爲: Unicode-objects must be encoded before hashing # 由於python3裏默認的str是unicode # 或者 b = bytes(str, encoding='utf-8'),做用相同,都是encode爲bytes b = str.encode(encoding='utf-8') m.update(b) str_md5 = m.hexdigest() return str_md5 def formdata(transtr): # 待加密信息 headerstr = '5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36' #print(round(time.time()*1000)) bv=nmd5(headerstr) ts=str(round(time.time()*1000)) salt=ts+'90' strexample='fanyideskweb'+transtr+salt+'n%A-rKaT5fb[Gy?;N5@Tj' sign=nmd5(strexample) #print(sign) i=len(transtr) #print(i) # print('MD5加密前爲 :' + headerstr) # print('MD5加密後爲 :' + bv) dict={'i':transtr,'from':'AUTO','TO':'AUTO','smartresult': 'dict', 'client':'fanyideskweb', 'salt':salt, 'sign':sign, 'ts':ts, 'bv':bv, 'doctype':'json', 'version':'2.1', 'keyfrom':'fanyi.web', 'action':'FY_BY_REALTlME' } return dict url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule' header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36', 'Referer':'http://fanyi.youdao.com/', 'Origin': 'http://fanyi.youdao.com', 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8', 'X-Requested-With':'XMLHttpRequest', 'Accept':'application/json, text/javascript, */*; q=0.01', 'Accept-Encoding':'gzip, deflate', 'Accept-Language':'zh-CN,zh;q=0.9', 'Connection': 'keep-alive', 'Host': 'fanyi.youdao.com', 'cookie':'_ntes_nnid=937f1c788f1e087cf91d616319dc536a,1564395185984; OUTFOX_SEARCH_USER_ID_NCOO=; OUTFOX_SEARCH_USER_ID=-10218418@11.136.67.24; JSESSIONID=; ___rl__test__cookies=1' } input=input("請輸入翻譯內容:") dict=formdata(input) dict=urllib.parse.urlencode(dict) dict=str(dict) #dict=urllib.parse.urlencode(dict).encode('utf-8') req=requests.post(url,data=dict,headers=header) val=req.json() print(val['translateResult'][0][0]['tgt'])
執行結果
就這樣,咱們從0開始 優雅
的揭開有道翻譯的面紗!你能夠利用這個作一些有趣的事情( 待續
------)