今天突發奇想小試爬蟲,獲取一下某素材站一些圖片html
實現步驟以下:前端
import re import requests from urllib import request import os # 1.首先要檢查數據是不是動態加載出來的 # 2.獲取頁面源碼數據 if not os.path.exists('tupian'): os.mkdir('tupian') headers = { "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36" } url = "http://sc.chinaz.com/tupian/bingxueshijie.html" page = requests.get(url=url, headers=headers) page.encoding='utf8' # 先解決亂碼問題 page_text=page.text # .text拿到html文本 ex = '<div class="box picblock col3".*?src2="(.*?)".*?</p>.*?</div>' img_url_list = re.findall(ex, page_text, re.S) # 正則匹配 for img_url in img_url_list: img_path = 'tupian/' + img_url.split("/")[-1] # 本地存放的文件路徑 request.urlretrieve(url=img_url, filename=img_path) print(img_path , "獲取成功")
結果:網站
tupian/bpic9987_s.jpg 獲取成功 tupian/bpic9944_s.jpg 獲取成功 tupian/zzpic15470_s.jpg 獲取成功 tupian/hpic428_s.jpg 獲取成功
...
# 還有一大推就不羅列了
期間遇到一點小坑, 此網站很是的雞賊, 在網頁點檢查看到的前端代碼並非真正請求得到的, 而是請求發過去後前端對一些細節作了處理, 因此寫正則匹配那一部分的時候不能參照網頁檢查現實的htmlurl
解決辦法就是先發請求得到真正請求獲得的html文本, 即page_text=page.text .text拿到html文本, 參照真正請求得到的文本寫正則, 如此便可spa
還有一個小坑就是亂碼問題, page.encoding='utf8' 便可解決code