在這次實驗報告中將會分爲五個部分進行單獨分析,這五個部分分別是:爬蟲、界面、文本搜索、圖片搜索以及音頻搜索。html
一爬蟲json
1.1 庫網站
requests編碼
urlliburl
1.2 實現功能.net
可以經過requests.get得到網頁上的內容,並使用json.loads進行解析htm
可以快速定位歌曲、專輯的信息,包括專輯名、歌手、歌詞、專輯簡介、發行時間、流派、發行公司等圖片
可以從網頁上下載歌曲和圖片文檔
1.3 實現過程get
爬取QQ音樂網站的榜單,經過榜單下載歌曲
分析發現搜索各首歌曲的 url 地址中的區別在於其中的一段內容表明的是搜索輸入的文字的編碼,利用這一特性模擬搜索從榜單上爬取下來的歌曲
經過分析網頁的 url 地址,發現每一首歌曲都有本身特定的」media_mid」屬性,這個屬性是各個歌曲的下載url地址惟一不一樣的地方。經過將該屬性替換到url中的固定位置,能夠完成歌曲、專輯、歌詞定位
定位到歌曲、專輯、歌詞、圖片地址後完成文本的寫入