前言html
本文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,版權歸原做者全部,若有問題請及時聯繫咱們以做處理。python
加企鵝羣695185429便可免費獲取,資料全在羣文件裏。資料能夠領取包括不限於Python實戰演練、PDF電子文檔、面試集錦、學習資料等面試
在素材網想找到合適圖片須要一頁一頁往下翻,如今學會python就能夠用程序把全部圖片保存下來,慢慢挑選合適的圖片。正則表達式
一、根據給定的網址獲取網頁源代碼。瀏覽器
二、利用正則表達式把源代碼中的圖片地址過濾出來。網絡
三、過濾出來的圖片地址下載素材圖片。ide
一、網址以下:函數
https://www.51miz.com/
二、涉及的庫:requests、lxml工具
首先須要解決如何對下一頁的網址進行請求的問題。能夠點擊下一頁的按鈕,觀察到網站的變化分別以下所示:學習
https://www.51miz.com/so-sucai/1789243.htmlhttps://www.51miz.com/so-sucai/1789243/p_2/https://www.51miz.com/so-sucai/1789243/p_3/
咱們能夠發現圖片頁數是1789243/p{},p{}花括號數字表示圖片哪一頁。
一、打開覓知網,在搜索中輸入你想要的圖片素材(以鼠年素材圖片爲例)。
二、根據上一步對網址的分析,首先咱們定義一個類叫作ImageSpider,類裏面定義初始化函數、發送請求獲取響應數據函數、解析函數、主函數。首先初始化函數,準備url地址和headers,代碼以下圖所示。
三、發送請求獲取響應數據函數。
四、解析數據,使用xpath獲取二級頁面連接,最後把圖片存儲在文件夾中。使用谷歌瀏覽器選擇開發者工具或直接按F12,發現咱們須要的圖片src是在img標籤下的,因而用Python的requests提取該組件。
五、主函數,代碼以下圖所示。
一、運行程序,在控制檯輸入你要爬取的頁數,以下圖所示。
二、在本地能夠看到效果圖,以下圖所示。