爬蟲--用python中requests和urllib模塊爬取圖片

時間 2019-12-07

標籤爬蟲 python requests urllib 模塊圖片欄目網絡爬蟲简体版

原文原文鏈接

今天突發奇想小試爬蟲,獲取一下某素材站一些圖片html

實現步驟以下:前端

import re
import requests
from urllib import request
import os

# 1.首先要檢查數據是不是動態加載出來的
# 2.獲取頁面源碼數據
if not os.path.exists('tupian'):
    os.mkdir('tupian')
headers = {
   "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
}
url = "http://sc.chinaz.com/tupian/bingxueshijie.html"
page = requests.get(url=url, headers=headers) 
page.encoding='utf8'  # 先解決亂碼問題
page_text=page.text  # .text拿到html文本

ex = '<div class="box picblock col3".*?src2="(.*?)".*?</p>.*?</div>'  
img_url_list = re.findall(ex, page_text, re.S)  # 正則匹配

for img_url in img_url_list:
    img_path = 'tupian/' + img_url.split("/")[-1]  # 本地存放的文件路徑
    
    request.urlretrieve(url=img_url, filename=img_path)
    print(img_path , "獲取成功")

結果:網站

tupian/bpic9987_s.jpg 獲取成功
tupian/bpic9944_s.jpg 獲取成功
tupian/zzpic15470_s.jpg 獲取成功
tupian/hpic428_s.jpg 獲取成功
... 
# 還有一大推就不羅列了

期間遇到一點小坑, 此網站很是的雞賊, 在網頁點檢查看到的前端代碼並非真正請求得到的, 而是請求發過去後前端對一些細節作了處理, 因此寫正則匹配那一部分的時候不能參照網頁檢查現實的htmlurl

解決辦法就是先發請求得到真正請求獲得的html文本, 即page_text=page.text .text拿到html文本, 參照真正請求得到的文本寫正則, 如此便可spa

還有一個小坑就是亂碼問題, page.encoding='utf8' 便可解決code

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。