立刻314情人節就要來了,是否須要一首歌來撫慰你,受傷或躁動的心靈。來吧,今天教你用15行代碼搞定熱門歌單。學起來並聽起來吧。python
本文使用的是Selenium模塊,它是一個自動化測試工具,利用它咱們能夠驅動瀏覽器執行特定的動做,如點擊、下拉等等操做,對於一些 JavaScript 渲染的頁面來講,此種抓取方式很是有效。另外採用了Chrome瀏覽器配合Selenium工做。chrome
操做系統:Windows瀏覽器
Python版本:3.7.2工具
a. 若你的環境中沒有selenium模塊,直接使用pip安裝便可。測試
pip install selenium
b. 打開谷歌瀏覽器,檢查Chrome的版本:在瀏覽器地址中輸入 chrome://settings/help 回車便可看到。網站
c. 打開ChromeDriver 的官方網站: https://sites.google.com/a/chromium.org/chromedriver/downloads 尋找與你當前瀏覽器版本相對應的ChromeDriver下載。google
d. 選擇你本身的操做系統類型進行下載便可。操作系統
e. 以Windows爲例,下載結束後,將ChromeDriver 放置在python安裝目錄下的Scripts文件夾便可。3d
準備工做完成,代碼寫起來吧~code
咱們此次的目標是爬取熱門歌單,好比網易雲音樂中播放量大於1000萬的歌單信息(歌單名稱、連接)。
a. 咱們先來打開網易雲的歌單第一頁: https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0
b. 使用Chrome的開發者工具<F12>進行分析。
咱們想要拿的信息全在這裏:
c. 咱們還須要遍歷全部的頁,使用工具繼續分析,找到「下一頁」的URL。
d. 切換至最後一頁,拿到最後一頁的URL。
e. 等咱們爬取完全部符合的歌單信息後,將其保存在本地。
f. 所有工做結束,最後再經過下面的僞代碼回顧下總體思路。
g. 爬取的效果以下:
本文旨在安撫你因情人節受傷的當心靈,同時帶你入個爬蟲的門,感覺下python的強大。
關注公衆號「Python專欄」,後臺回覆:zsxq02,獲取本文所有代碼