Python文本爬蟲實戰

一:流程 目標:爬取目標網頁的圖片 1:獲取網頁源碼 2:用Python讀取源碼 3:使用正則表達式從網頁源碼提取圖片地址 4:根據圖片地址下載圖片 二:實現 1:源碼獲取 文本爬蟲,是在已有的文本內容中爬取需要的信息,這區別於網絡爬蟲。 由於被檢索的內容是現成的,因此,文本爬蟲又叫「半自動爬蟲」。 在本例中,我們以暱圖網首頁爲目標網址,因此,我們先到暱圖網首頁,右鍵—>查看源代碼—>保存源碼到t
相關文章
相關標籤/搜索