要點:1.js加密就是麻煩,只能百度尋找了!設計的加密模塊binascii、Crypto、base64css
2.requests.Session的用法,能夠指定headers、cookieshtml
3.能夠用scrapy.selector 替代beautiful 搜索python
4.requests 能夠直接json()獲得json文本git
5.用本身加到requests模塊的urlretrieve 下載文件github
說幹就幹,先打開charles,而後進入歌單頁面json
這時在看看charles,先從code是206(歌曲mp3的網址)開始分析,最後找到歌單segmentfault
mp3文件api
複製mp3的url,看看哪一個網站出現cookie
直接找到了包含歌曲url信息的網址,不過蛋疼的是這得POST,再看看post的參數session
CTRL+F 了下,徹底找不到這2個參數從哪裏來,百度了下,特麼須要解碼,算了,先跳過,先說說歌單
看來很簡單的了,歌名前面就是id了,可是特麼沒有歌手信息啊,還得再折騰
得把’song?id=64006‘ 提取出來,進入每一首歌的頁面,再彙總
import requests,os,json,re from scrapy.selector import Selector class wangyiyun(): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'Referer': 'http://music.163.com/'} self.main_url='http://music.163.com/' self.session = requests.Session() self.session.headers.update(self.headers) def get_songurls(self,playlist): '''進入所選歌單頁面,得出歌單裏每首歌各自的ID 形式就是「song?id=64006"''' url=self.main_url+'playlist?id=%d'% playlist re= self.session.get(url) #直接用session進入網頁,懶得構造了 sel=Selector(text=re.text) #用scrapy的Selector,懶得用BS4了 songurls=sel.xpath('//ul[@class="f-hide"]/li/a/@href').extract() return songurls #全部歌曲組成的list def get_songinfos(self,songurls): '''根據songid進入每首歌對應的url,拿到歌手名字,url就是:"http://music.163.com/song?id=64006"''' for songurl in songurls: url=self.main_url+songurl re=self.session.get(url) sel=Selector(text=re.text) song_id = url.split('=')[1] song_name = sel.xpath("//em[@class='f-ff2']/text()").extract_first() singer= '&'.join(sel.xpath("//p[@class='des s-fc4']/span/a/text()").extract()) print(song_id,song_name,singer) def work(self,playlist): songurls=self.get_songurls(playlist) self.get_songinfos(songurls) d=wangyiyun() d.work(2214059025)
結果以下:
好了!,終於到了最難搞的部分,解碼!!
老實說,我是不太看得明,我把我所參考的3位大神的URL貼上來,你們不妨深刻研究!
Python單純的解碼部分:https://segmentfault.com/a/1190000012818254?utm_source=tuicool&utm_medium=referral
@Jack-Cherish 老哥的完整代碼:https://github.com/Jack-Cherish/python-spider
剛纔已經由歌單獲得歌曲的ID、歌名、歌手
接着就是如何根據歌曲ID獲得MP3的URL了,很明顯,中間得通過這個網址
就能得出歌曲的真實地址了,但是,須要post2個參數params跟encSecKey
這2個參數params跟encSecKey哪裏來的呢,就是要解碼!!
點擊歌曲所在頁面的控制檯(F12) Sources
,能夠看到有不少請求的數據,這裏包含 js
css
image
以及頁面,基本上大的公司加密的方法都是放在一個單獨的js文件中,因此咱們能夠每個個展開只選擇js文件 而後搜索參數 params
或者 encSecKey
其中一個便可
能夠看到圖中這個core.js
http://s3.music.126.net/sep/s/2/core.js?51c175b69f779986b5f2b7445b85c7b1含有encSecKey
有三個,那應該就是他了,最後再點擊紅色箭頭所指的就能夠美化一下代碼啦,否則你就只能看着一坨坨的
經過搜索就能夠看到這裏有咱們須要的兩個參數,那麼接下來就只須要研究這兩個參數所在的上面一部分代碼便可,其餘代碼都無需再管。
var bBj9a = window.asrsea(JSON.stringify(j3x), bwA8s(["流淚", "強"]), bwA8s(Uf9W.md), bwA8s(["愛心", "女孩", "驚恐", "大笑"])); e3x.data = k3x.cC4G({ params: bBj9a.encText, encSecKey: bBj9a.encSecKey
這是JS了,我徹底不懂,看了大神們的解說,也只知其一;不知其二,我仍是嘗試着跟着他們去搞吧
先把window.asrsea 這個函數代碼,ctrl+f 搜索window.asrsea,只有2個,一個是上面的,另一個就是下面的代碼
!function() { function a(a) { var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = ""; for (d = 0; a > d; d += 1) e = Math.random() * b.length, e = Math.floor(e), c += b.charAt(e); return c } function b(a, b) { var c = CryptoJS.enc.Utf8.parse(b) , d = CryptoJS.enc.Utf8.parse("0102030405060708") , e = CryptoJS.enc.Utf8.parse(a) , f = CryptoJS.AES.encrypt(e, c, { iv: d, mode: CryptoJS.mode.CBC }); return f.toString() } function c(a, b, c) { var d, e; return setMaxDigits(131), d = new RSAKeyPair(b,"",c), e = encryptedString(d, a) } function d(d, e, f, g) { var h = {} , i = a(16); return h.encText = b(d, g), h.encText = b(h.encText, i), h.encSecKey = c(i, e, f), h } function e(a, b, d, e) { var f = {}; return f.encText = c(a + e, b, d), f } window.asrsea = d, window.ecnonasr = e }();
注意了,window.asrsea = d,意思就是這個window.asrsea函數就是d!!!
function d(d, e, f, g) { var h = {} , i = a(16); return h.encText = b(d, g), h.encText = b(h.encText, i), h.encSecKey = c(i, e, f), h }
回頭看看window.asrsea,有4個參數,其實就是對應上面的d,e,f,g,把這4個參數代入後,返回的
h.encText---------->params: bBj9a.encText, h.encSecKey-------->encSecKey: bBj9a.encSecKey
因此破解了這個d函數就能獲得咱們想要的2個參數了,
先是調用a函數獲得i---------->i = a(16)
接着h.encTect,調用了2次b函數,h.encText = b(d, g)---------->h.encText = b(h.encText, i)
最後h.encSecKey, 調用了c函數,---------->h.encSecKey = c(i, e, f)
開始破解!
1.好了,那麼先破解i,搞懂a函數
function a(a) { var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = ""; for (d = 0; a > d; d += 1) e = Math.random() * b.length, e = Math.floor(e), c += b.charAt(e); return c }
大佬們都說a方法是產生16位隨機字符串,其實能夠用固定的,可是我仍是用Jack的吧!
好像很簡單,i=binascii.hexlify(os.urandom(16))[:16]
分析:binascii.hexlify() 就是把字符串每個字節的數據轉換成相應的2位十六進制表示
os.urandom(n) 是一種隨機生成n個字節字符串的方法
特麼真的其實就是隨機搞個16位的字符串,並且是bytes
b'40c9505f1d021439'
2.接着,就是把h.encTect搞出來,b函數
h.encText = b(d, g)---------->h.encText = b(h.encText, i)
function b(a, b) {
var c = CryptoJS.enc.Utf8.parse(b)
, d = CryptoJS.enc.Utf8.parse("0102030405060708")
, e = CryptoJS.enc.Utf8.parse(a)
, f = CryptoJS.AES.encrypt(e, c, {
iv: d,
mode: CryptoJS.mode.CBC
});
return f.toString()
}
很明顯,看不懂,先看看大佬們怎寫:
from Crypto.Cipher import AES import base64 def aes_encrypt(text, key): iv = "0102030405060708" pad = 16 - len(text) % 16 text = text + pad * chr(pad) encryptor = AES.new(key, AES.MODE_CBC, iv) result = encryptor.encrypt(text) result_str = base64.b64encode(result) return result_str
很明顯,也看不懂。反正這樣寫就好了。
3.最後,就是把h.encSecKey搞出來,c函數
function c(a, b, c) {
var d, e;
return setMaxDigits(131),
d = new RSAKeyPair(b,"",c),
e = encryptedString(d, a)
}
大佬們的寫法:
def rsa_encrpt(text, pubKey, modulus): text = text[::-1] rs = pow(int(binascii.hexlify(text), 16), int(pubKey, 16), int(modulus, 16)) return format(rs, 'x').zfill(256)OK,如今把函數都搞清楚了,再回頭看整個原函數:
var bBj9a = window.asrsea(JSON.stringify(j3x), bwA8s(["流淚", "強"]), bwA8s(Uf9W.md), bwA8s(["愛心", "女孩", "驚恐", "大笑"])); e3x.data = k3x.cC4G({ params: bBj9a.encText, encSecKey: bBj9a.encSecKey輸入的4個參數究竟是什麼東東呢?
關於這個,大佬們說能夠像pycharm能夠設斷點,就能看這4個參數的值了,我也折騰了好久,終於搞懂了!!
設置斷點,而後按播放
還得按多記下右上角的resume,再選中參數,就能看到參數的值了!!
第一個參數明顯跟歌曲的id有關,其他3個都是常量,如今能夠把這個解碼給寫出來了!!
import os,shutil,json,requests from binascii import hexlify from Crypto.Cipher import AES import base64 class Encrypyed(): def __init__(self): self.pub_key = '010001' self.modulus = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7' self.nonce = '0CoJUm6Qyw8W8jud' def create_secret_key(self, size): return hexlify(os.urandom(size))[:16].decode('utf-8') def aes_encrypt(self,text, key): iv = '0102030405060708' pad = 16 - len(text) % 16 text = text + pad * chr(pad) encryptor = AES.new(key, AES.MODE_CBC, iv) result = encryptor.encrypt(text) result_str = base64.b64encode(result).decode('utf-8') return result_str def rsa_encrpt(self,text, pubKey, modulus): text = text[::-1] rs = pow(int(hexlify(text.encode('utf-8')), 16), int(pubKey, 16), int(modulus, 16)) return format(rs, 'x').zfill(256) def work(self,text): text = json.dumps(text) i=self.create_secret_key(16) encText =self.aes_encrypt(text, self.nonce) encText=self.aes_encrypt(encText,i) encSecKey=self.rsa_encrpt(i,self.pub_key,self.modulus) data = {'params': encText, 'encSecKey': encSecKey} return data do=Encrypyed() data=do.work(64006) url='http://music.163.com/weapi/song/enhance/player/url?csrf_token=' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'Referer': 'http://music.163.com/'} session = requests.Session() session.headers=headers re=session.post(url,data=data) print(re.text)
OK!!!成功了,如今就把代碼整合下,根據歌單下載網易雲的歌曲
完整代碼:
import requests,os,json,base64 from scrapy.selector import Selector from binascii import hexlify from Crypto.Cipher import AES class Encrypyed(): '''傳入歌曲的ID,加密生成'params'、'encSecKey 返回''' def __init__(self): self.pub_key = '010001' self.modulus = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7' self.nonce = '0CoJUm6Qyw8W8jud' def create_secret_key(self, size): return hexlify(os.urandom(size))[:16].decode('utf-8') def aes_encrypt(self,text, key): iv = '0102030405060708' pad = 16 - len(text) % 16 text = text + pad * chr(pad) encryptor = AES.new(key, AES.MODE_CBC, iv) result = encryptor.encrypt(text) result_str = base64.b64encode(result).decode('utf-8') return result_str def rsa_encrpt(self,text, pubKey, modulus): text = text[::-1] rs = pow(int(hexlify(text.encode('utf-8')), 16), int(pubKey, 16), int(modulus, 16)) return format(rs, 'x').zfill(256) def work(self,text): text = json.dumps(text) i=self.create_secret_key(16) encText =self.aes_encrypt(text, self.nonce) encText=self.aes_encrypt(encText,i) encSecKey=self.rsa_encrpt(i,self.pub_key,self.modulus) data = {'params': encText, 'encSecKey': encSecKey} return data class wangyiyun(): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'Referer': 'http://music.163.com/'} self.main_url='http://music.163.com/' self.session = requests.Session() self.session.headers=self.headers self.ep=Encrypyed() def get_songurls(self,playlist): '''進入所選歌單頁面,得出歌單裏每首歌各自的ID 形式就是「song?id=64006"''' url=self.main_url+'playlist?id=%d'% playlist re= self.session.get(url) #直接用session進入網頁,懶得構造了 sel=Selector(text=re.text) #用scrapy的Selector,懶得用BS4了 songurls=sel.xpath('//ul[@class="f-hide"]/li/a/@href').extract() return songurls #全部歌曲組成的list ##['/song?id=64006', '/song?id=63959', '/song?id=25642714', '/song?id=63914', '/song?id=4878122', '/song?id=63650'] def get_songinfo(self,songurl): '''根據songid進入每首歌信息的網址,獲得歌曲的信息 return:'64006','陳小春-失戀王''' url=self.main_url+songurl re=self.session.get(url) sel=Selector(text=re.text) song_id = url.split('=')[1] song_name = sel.xpath("//em[@class='f-ff2']/text()").extract_first() singer= '&'.join(sel.xpath("//p[@class='des s-fc4']/span/a/text()").extract()) songname=singer+'-'+song_name return str(song_id),songname def get_url(self,ids,br=128000): '''self.ep.work輸入歌曲ID,解碼後返回data,{params 'encSecKey} 而後post,得出歌曲所在url''' text = {'ids': [ids], 'br': br, 'csrf_token': ''} data=self.ep.work(text) url = 'http://music.163.com/weapi/song/enhance/player/url?csrf_token=' req = self.session.post(url, data=data) song_url=req.json()['data'][0]['url'] return song_url def download_song(self, songurl, dir_path): '''根據歌曲url,下載mp3文件''' song_id, songname = self.get_songinfo(songurl) #根據歌曲url得出ID、歌名 song_url = self.get_url(song_id) #根據ID獲得歌曲的實質URL path = dir_path + os.sep + songname + '.mp3' #文件路徑 requests.urlretrieve(song_url, path) #下載文件 def work(self,playlist): songurls=self.get_songurls(playlist) #輸入歌單編號,獲得歌單全部歌曲的url dir_path=r'C:\Users\Administrator\Desktop' for songurl in songurls: self.download_song(songurl,dir_path) #下載歌曲 if __name__ == '__main__': d=wangyiyun() d.work(2214059025)
OK,完成,收工!!