本文主要針對python使用urlretrieve或urlopen下載百度、搜狗、googto(谷歌鏡像)等圖片時,出現"沒法打開圖片或已損壞"的問題,做者對它進行簡單的探討。同時,做者將進一步幫你鞏固selenium自動化操做和urllib庫等知識。
感謝朋友"露爲霜"的幫助!但願之後能實現強大的圖片爬蟲代碼~
html
下面這部分Selenium代碼的主要功能是:
1.先自動運行瀏覽器,並訪問百度圖片連接:http://image.baidu.com/
2.經過driver.find_element_by_xpath()函數獲取輸入框的位置;
3.在輸入框中自動輸入搜索關鍵詞"鄧肯",再輸入回車搜索"鄧肯"相關圖片;
4.再經過find_element_by_xpath()獲取圖片的原圖url,這裏僅獲取一張圖片;
5.調用urllib的urlretrieve()函數下載圖片。
最後整個動態效果以下圖所示,可是圖片卻沒法顯示:java
代碼以下:python
1 # -*- coding: utf-8 -*- 2 import urllib 3 import re 4 import time 5 import os 6 from selenium import webdriver 7 from selenium.webdriver.common.keys import Keys 8 import selenium.webdriver.support.ui as ui 9 from selenium.webdriver.common.action_chains import ActionChains 10 11 #Open PhantomJS 12 #driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe") 13 driver = webdriver.Firefox() 14 wait = ui.WebDriverWait(driver,10) 15 16 #Search Picture By Baidu 17 url = "http://image.baidu.com/" 18 name = u"鄧肯" 19 driver.get(url) 20 elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input") 21 elem_inp.send_keys(name) 22 elem_inp.send_keys(Keys.RETURN) 23 time.sleep(5) 24 25 #Get the URL of Pictures 26 #elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a") 27 elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img") 28 elem_url = elem_pic.get_attribute("src") 29 print elem_url 30 31 #Download Pictures 32 driver.get(elem_url) 33 urllib.urlretrieve(elem_url,"picture.jpg") 34 print "Download Pictures!!!"
1.urllib.urlretrieve()
經過urlretrieve()函數可設置下載進度發現圖片是一會兒就加載的。這裏給你們鞏固這個urlretrieve函數的方法和Python時間命名方式,代碼以下:git
1 # -*- coding: utf-8 -*- 2 import urllib 3 import time 4 import os 5 6 #顯示下載進度 7 def schedule(a,b,c): 8 #a:已下載的數據塊 b:數據塊的大小 c:遠程文件的大小 9 per = 100.0 * a * b / c 10 if per > 100 : 11 per = 100 12 print '%.2f%%' % per 13 14 if __name__ == '__main__': 15 url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg" 16 #定義文件名 時間命名 17 t = time.localtime(time.time()) 18 #反斜槓鏈接多行 19 filename = str(t.__getattribute__("tm_year")) + "_" + \ 20 str(t.__getattribute__("tm_mon")) + "_" + \ 21 str(t.__getattribute__("tm_mday")) 22 target = "%s.jpg" % filename 23 print target 24 urllib.urlretrieve(url,target,schedule) 25 print "Download Picture!!!"
發現該圖片的大小僅爲168字節,其中輸出結果以下圖,獲取的URL地址以下:
http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg
而換張圖片是能顯示下載進度的,如個人頭像。顯然我想讓程序加個進度就能爬取圖片的想法失敗。頭像地址:http://avatar.csdn.net/F/8/5/1_eastmount.jpggithub
猜想可能獲取的百度URL不是原圖地址,或者是個服務器設置了相應的攔截或加密。參考"Python爬蟲抓取網頁圖片",函數相關介紹以下:web
>>> help(urllib.urlretrieve) Help on function urlretrieve in module urllib: urlretrieve(url, filename=None, reporthook=None, data=None) 參數url: 指定的下載路徑 參數 finename: 指定了保存本地路徑(若是參數未指定,urllib會生成一個臨時文件保存數據。) 參數 reporthook: 是一個回調函數,當鏈接上服務器、以及相應的數據塊傳輸完畢時會觸發該回調, 咱們能夠利用這個回調函數來顯示當前的下載進度。 參數 data: 指 post 到服務器的數據,該方法返回一個包含兩個元素的(filename, headers)元組, filename 表示保存到本地的路徑,header 表示服務器的響應頭。
2.urllib2.urlopen()
換個方法urlopen()實現,同時設置消息頭試試,並輸出信息和圖片大小。windows
1 # -*- coding: utf-8 -*- 2 import os 3 import sys 4 import urllib 5 import urllib2 6 7 #設置消息頭 8 url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg" 9 header = { 10 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \ 11 AppleWebKit/537.36 (KHTML, like Gecko) \ 12 Chrome/35.0.1916.114 Safari/537.36', 13 'Cookie': 'AspxAutoDetectCookieSupport=1' 14 } 15 request = urllib2.Request(url, None, header) 16 response = urllib2.urlopen(request) 17 print response.headers['Content-Length'] 18 19 with open("picture.jpg","wb") as f: 20 f.write(response.read()) 21 print response.geturl() 22 print response.info() #返回報文頭信息 23 print urllib2.urlopen(url).read()
返回內容是」HTTPError: HTTP Error 403: Forbidden「,Selenium打開以下:瀏覽器
其中403錯誤介紹以下,服務器拒絕服務:服務器
換成個人博客圖像那張圖是能下載的,同時設置消息頭和代理,推薦一篇文章:
[Python]網絡爬蟲(五):urllib2的使用細節與抓站技巧網絡
主要參考三篇文章和本身的一些想法:
selenium+python 爬取網絡圖片(2) -- 百度
Python 3 多線程下載百度圖片搜索結果
CSDN博客搬家到WordPress - curl設置headers爬取
第一個方法 F12審查元素和SRC的騙局
這是感謝"露爲霜"同窗提供的方法,若是你經過瀏覽器點開百度搜索"鄧肯"的第一張圖片,複製網址後,會發現圖片真實的地址爲:
http://gb.cri.cn/mmsource/images/2015/11/22/sb2015112200073.jpg
此時你再分析百度搜索頁面,你會發現"F12審查元素和獲取src元素的行爲欺騙了你",正是由於它倆定位到了錯誤的圖片連接。而真實的URL是在"ul/li/"中的"data-objurl"屬性中。
代碼以下:
1 # -*- coding: utf-8 -*- 2 import urllib 3 import re 4 import time 5 import os 6 from selenium import webdriver 7 from selenium.webdriver.common.keys import Keys 8 import selenium.webdriver.support.ui as ui 9 from selenium.webdriver.common.action_chains import ActionChains 10 11 #Open PhantomJS 12 #driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe") 13 driver = webdriver.Firefox() 14 wait = ui.WebDriverWait(driver,10) 15 16 #Search Picture By Baidu 17 url = "http://image.baidu.com/" 18 name = u"鄧肯" 19 driver.get(url) 20 elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input") 21 elem_inp.send_keys(name) 22 elem_inp.send_keys(Keys.RETURN) 23 time.sleep(5) 24 25 #Get the URL of Pictures 26 num = 1 27 elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li") 28 for elem in elem_pic: 29 elem_url = elem.get_attribute("data-objurl") 30 print elem_url 31 #Download Pictures 32 name = "%03d" % num 33 urllib.urlretrieve(elem_url, str(name) + ".jpg") 34 num = num + 1 35 else: 36 print "Download Pictures!!!"
運行代碼成功爬取了9張圖片,顯然成功了!雖然最後報錯:IOError: [Errno socket error] [Errno 10060] ,只爬取了9張圖片,可是至少能夠正確解決了該問題。運行截圖以下所示:
一樣的道理,googto的elem.get_attribute("src")改爲elem.get_attribute("data-imgurl")便可獲取正確的圖片地址並正確下載。
PS:百度圖片動態加載的功能是很是強大的,當你的鼠標拖動時,它會自動增長新的頁面,在<ul>中包括新的一批<li>張圖片,這也是不一樣於其它網頁在右下角點擊"一、二、3..."翻頁的,可能也會成爲海量圖片爬取的又一難點。
第二個方法 Selenium使用右鍵另存爲
仍是使用老的連接,雖然讀取是沒法顯示的,但嘗試經過Selenium的鼠標右鍵另存爲功能,看能不能爬取成功。
1 # -*- coding: utf-8 -*- 2 import urllib 3 import re 4 import time 5 import os 6 from selenium import webdriver 7 from selenium.webdriver.common.keys import Keys 8 import selenium.webdriver.support.ui as ui 9 from selenium.webdriver.common.action_chains import ActionChains 10 11 #Open PhantomJS 12 driver = webdriver.Firefox() 13 wait = ui.WebDriverWait(driver,10) 14 15 #Search Picture By Baidu 16 url = "http://image.baidu.com/" 17 name = u"鄧肯" 18 driver.get(url) 19 elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input") 20 elem_inp.send_keys(name) 21 elem_inp.send_keys(Keys.RETURN) 22 time.sleep(5) 23 24 #Get the URL of Pictures 25 elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img") 26 elem_url = elem_pic.get_attribute("src") 27 print elem_url 28 29 #鼠標移動至圖片上 右鍵保存圖片 30 driver.get(elem_url) 31 print driver.page_source 32 elem = driver.find_element_by_xpath("//img") 33 action = ActionChains(driver).move_to_element(elem) 34 action.context_click(elem) #右鍵 35 36 #當右鍵鼠標點擊鍵盤光標向下則移動至右鍵菜單第一個選項 37 action.send_keys(Keys.ARROW_DOWN) 38 action.send_keys('v') #另存爲 39 action.perform() 40 print "Download Pictures!!!"
運行效果以下圖所示。雖然它能實現右鍵另存爲,可是須要手動點擊保存,其緣由是selenium沒法操做操做系統級的對話框,又說"set profile"代碼段的設置能解決問題的並不靠譜。經過鉤子Hook函數能夠實現,之前作過C#的鉤子自動點擊功能,可是想到下載圖片須要彈出並點擊無數次對話框就很蛋疼,因此該方法並很差!
鉤子函數java版本結合robot能夠閱讀下面這篇文章:
selenium webdriver 右鍵另存爲下載文件(結合robot and autoIt)
第三個方法 經過Selenium自動點擊百度的下載按鈕
其實現過程就是經過Selenium找到"下載"按鈕,再點擊或獲取連接便可。
該方法參考文章:selenium+python 爬取網絡圖片(2) -- 百度
同時,這裏須要強調百度動態加載,能夠經過Selenium模擬滾動窗口實現,也參考上面文章。其中核心代碼爲:
driver.maximize_window()
pos += i*500 # 每次下滾500
js = "document.documentElement.scrollTop=%d" % pos
driver.execute_script(js)
第四個方法 百度圖片解碼下載及線程實現
參考文章:Python 3 多線程下載百度圖片搜索結果
最近看了一些優秀的文章,真心感受本身縷蟻通常,太過眇小,還有好多知識須要學習啊!加油~並且不知道如今本身作的這些東西是否有用?心理的幾個想法一直還未實現,挺擔憂的。仍是本身博客描述那句話:
無知的本身 · 樂觀的面對 · 謙遜的學習 · 低調的前行 · 更要會生活
但願文章對你有所幫助,若是有錯誤或不足之處,還請海涵~
(By:Eastmount 2015-12-07 清晨6點 http://blog.csdn.net/eastmount/)