基於Python的圖片及音頻搜索引擎

在這次實驗報告中將會分爲五個部分進行單獨分析,這五個部分分別是:爬蟲、界面、文本搜索、圖片搜索以及音頻搜索。html

一爬蟲json

1.1 庫網站

requests編碼

urlliburl

1.2 實現功能.net

可以經過requests.get得到網頁上的內容,並使用json.loads進行解析htm

可以快速定位歌曲、專輯的信息,包括專輯名、歌手、歌詞、專輯簡介、發行時間、流派、發行公司等圖片

可以從網頁上下載歌曲和圖片文檔

1.3 實現過程get

爬取QQ音樂網站的榜單,經過榜單下載歌曲

分析發現搜索各首歌曲的 url 地址中的區別在於其中的一段內容表明的是搜索輸入的文字的編碼,利用這一特性模擬搜索從榜單上爬取下來的歌曲

經過分析網頁的 url 地址,發現每一首歌曲都有本身特定的」media_mid」屬性,這個屬性是各個歌曲的下載url地址惟一不一樣的地方。經過將該屬性替換到url中的固定位置,能夠完成歌曲、專輯、歌詞定位

定位到歌曲、專輯、歌詞、圖片地址後完成文本的寫入

點擊此處下載文檔和源碼

相關文章
相關標籤/搜索