Python文本爬蟲實戰

時間 2021-01-11

原文原文鏈接

一：流程目標：爬取目標網頁的圖片 1：獲取網頁源碼 2：用Python讀取源碼 3：使用正則表達式從網頁源碼提取圖片地址 4：根據圖片地址下載圖片二：實現 1：源碼獲取文本爬蟲，是在已有的文本內容中爬取需要的信息，這區別於網絡爬蟲。由於被檢索的內容是現成的，因此，文本爬蟲又叫「半自動爬蟲」。在本例中，我們以暱圖網首頁爲目標網址，因此，我們先到暱圖網首頁，右鍵—>查看源代碼—>保存源碼到t

>>阅读原文<<