第十講:Python爬取網頁圖片並保存到本地,包含次層頁面

上一講咱們講到了從暱圖網的首頁下載圖片到本地,可是咱們發現首頁上面的大部分連接其實均可以進入到二級頁面。正則表達式

在二級頁面裏面,咱們也能夠一樣進行圖片的下載,經過層層循環咱們能夠把網址的一部分圖片下載到本地(有些圖片的連接是動態的,並且網站也會檢測盜鏈等反爬蟲設置,這個後續再講)。函數

首先,咱們整理下思路,在首頁這裏爬取圖片的思路以下:源碼分析

一、經過首頁的地址獲取首頁的源代碼網站

二、分析源代碼中圖片的連接地址,根據這個地址格式來組裝正則表達式blog

三、根據正則表達式來批量匹配圖片地址圖片

四、根據匹配的地址進行循環下載到本地。源碼

借鑑上面的思路,咱們在二級頁面一樣可使用這些步驟,只須要把首頁的地址更換成二級頁面的地址。循環

那麼,二級頁面的地址咱們在首頁的源碼分析的時候能夠直接獲取,存在另一個列表(如今爲止有兩個列表了,一個是用來存儲頁面的二級連接的,一個是用來存儲本頁面的圖片地址的)。下載

因爲咱們爬取圖片的功能都是能夠反覆調用的,因此咱們把這部分的代碼提取成一個函數。im

最終代碼以下:

運行效果以下:

圖片會一直下載。

相關文章
相關標籤/搜索