[python爬蟲] Selenium定向爬取虎撲籃球海量精美圖片

前言:

 
       做爲一名從小就看籃球的球迷,會常常逛虎撲籃球及溼乎乎等論壇,在論壇裏面會存在不少精美圖片,包括NBA球隊、CBA明星、花邊新聞、球鞋美女等等,若是一張張右鍵另存爲的話真是手都點疼了。做爲程序員仍是寫個程序來進行吧!
        因此我經過Python+Selenium+正則表達式+urllib2進行海量圖片爬取。
        前面講過太多Python爬蟲相關的文章了,如爬取新浪博客、維基百科Infobox、百度百科、遊迅網圖片,也包括Selenium安裝過程等等,詳見個人兩個專欄:
        Python學習系列
        Python爬蟲之Selenium+Phantomjs+CasperJS


html

運行效果:


        運行效果以下圖所示,其中第一幅圖是虎撲網站爬取tag(標籤)爲馬刺的圖集,第二幅圖是爬取tag爲陳露的圖集。每一個文件夾命名對應網頁主題,並且圖片都是完整的。
        http://photo.hupu.com/nba/tag/馬刺
        http://photo.hupu.com/nba/tag/陳露

python



 

 

源代碼:

 

  1 # -*- coding: utf-8 -*-  
  2 """ 
  3 Crawling pictures by selenium and urllib
  4 url: 虎撲 馬刺 http://photo.hupu.com/nba/tag/%E9%A9%AC%E5%88%BA
  5 url: 虎撲 陳露 http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2
  6 Created on 2015-10-24
  7 @author: Eastmount CSDN  
  8 """    
  9     
 10 import time            
 11 import re            
 12 import os    
 13 import sys  
 14 import urllib  
 15 import shutil  
 16 import datetime  
 17 from selenium import webdriver        
 18 from selenium.webdriver.common.keys import Keys        
 19 import selenium.webdriver.support.ui as ui        
 20 from selenium.webdriver.common.action_chains import ActionChains    
 21     
 22 #Open PhantomJS    
 23 driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
 24 #driver = webdriver.Firefox()  
 25 wait = ui.WebDriverWait(driver,10)    
 26   
 27 #Download one Picture By urllib 
 28 def loadPicture(pic_url, pic_path):  
 29     pic_name = os.path.basename(pic_url)  #刪除路徑獲取圖片名字
 30     pic_name = pic_name.replace('*','')   #去除'*' 防止錯誤 invalid mode ('wb') or filename
 31     urllib.urlretrieve(pic_url, pic_path + pic_name)
 32     
 33   
 34 #爬取具體的圖片及下一張
 35 def getScript(elem_url, path, nums):
 36     try:
 37         #因爲連接 http://photo.hupu.com/nba/p29556-1.html
 38         #只需拼接 http://..../p29556-數字.html 省略了自動點擊"下一張"操做
 39         count = 1
 40         t = elem_url.find(r'.html')
 41         while (count <= nums):
 42             html_url = elem_url[:t] + '-' + str(count) + '.html'
 43             #print html_url
 44             '''
 45             driver_pic.get(html_url)
 46             elem = driver_pic.find_element_by_xpath("//div[@class='pic_bg']/div/img")
 47             url = elem.get_attribute("src")
 48             '''
 49             #採用正則表達式獲取第3個<div></div> 再獲取圖片URL進行下載
 50             content = urllib.urlopen(html_url).read()
 51             start = content.find(r'<div class="flTab">')
 52             end = content.find(r'<div class="comMark" style>')
 53             content = content[start:end]
 54             div_pat = r'<div.*?>(.*?)<\/div>'
 55             div_m = re.findall(div_pat, content, re.S|re.M)
 56             #print div_m[2]
 57             link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", div_m[2])
 58             #print link_list
 59             url = link_list[0] #僅僅一條url連接
 60             loadPicture(url, path)
 61             count = count + 1
 62 
 63     except Exception,e:  
 64         print 'Error:',e  
 65     finally:  
 66         print 'Download ' + str(count) + ' pictures\n'  
 67     
 68       
 69 #爬取主頁圖片集的URL和主題  
 70 def getTitle(url):  
 71     try:  
 72         #爬取URL和標題  
 73         count = 0  
 74         print 'Function getTitle(key,url)'  
 75         driver.get(url)  
 76         wait.until(lambda driver: driver.find_element_by_xpath("//div[@class='piclist3']"))
 77         print 'Title: ' + driver.title + '\n'
 78         
 79         #縮略圖片url(此處無用) 圖片數量 標題(文件名) 注意順序
 80         elem_url = driver.find_elements_by_xpath("//a[@class='ku']/img")
 81         elem_num = driver.find_elements_by_xpath("//div[@class='piclist3']/table/tbody/tr/td/dl/dd[1]")
 82         elem_title = driver.find_elements_by_xpath("//div[@class='piclist3']/table/tbody/tr/td/dl/dt/a")
 83         for url in elem_url:  
 84             pic_url = url.get_attribute("src")
 85             html_url = elem_title[count].get_attribute("href")
 86             print elem_title[count].text
 87             print html_url 
 88             print pic_url
 89             print elem_num[count].text
 90             
 91             #建立圖片文件夾
 92             path = "E:\\Picture_HP\\" + elem_title[count].text + "\\"
 93             m = re.findall(r'(\w*[0-9]+)\w*', elem_num[count].text) #爬蟲圖片張數
 94             nums = int(m[0])
 95             count = count + 1 
 96             if os.path.isfile(path):         #Delete file  
 97                 os.remove(path)  
 98             elif os.path.isdir(path):        #Delete dir  
 99                 shutil.rmtree(path, True)  
100             os.makedirs(path)                #create the file directory  
101             getScript(html_url, path, nums)  #visit pages
102                   
103     except Exception,e:  
104         print 'Error:',e  
105     finally:  
106         print 'Find ' + str(count) + ' pages with key\n'  
107       
108 #Enter Function  
109 def main():  
110     #Create Folder  
111     basePathDirectory = "E:\\Picture_HP"  
112     if not os.path.exists(basePathDirectory):  
113         os.makedirs(basePathDirectory)  
114   
115     #Input the Key for search  str=>unicode=>utf-8  
116     key = raw_input("Please input a key: ").decode(sys.stdin.encoding)  
117     print 'The key is : ' + key  
118   
119     #Set URL List  Sum:1-2 Pages  
120     print 'Ready to start the Download!!!\n\n'  
121     starttime = datetime.datetime.now()   
122     num=1  
123     while num<=1:
124         #url = 'http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2?p=2&o=1'
125         url = 'http://photo.hupu.com/nba/tag/%E9%A9%AC%E5%88%BA'        
126         print ''+str(num)+'','url:'+url  
127         #Determine whether the title contains key  
128         getTitle(url)  
129         time.sleep(2)  
130         num = num + 1  
131     else:  
132         print 'Download Over!!!'  
133   
134     #get the runtime  
135     endtime = datetime.datetime.now()  
136     print 'The Running time : ',(endtime - starttime).seconds  
137           
138 main()  

 

 

代碼解析:


        源程序主要步驟以下:
        1.入口main函數中,在E盤下建立圖片文件夾Picture_HP,而後輸入圖集url,本打算輸入tag來進行訪問的,由於URL以下:
        http://photo.hupu.com/nba/tag/馬刺
        可是解析URL中文老是錯誤,故改爲輸入URL,這不影響大局。同時你可能發現了代碼中while循環條件爲num<=1,它只執行一次,建議須要下載哪頁圖集,就賦值URL便可。可是虎撲的不一樣頁連接以下,經過分析URL拼接也是能夠實現循環獲取全部頁的。
        http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2?p=2&o=1

程序員

       2.調用getTitle(rul)函數,經過Selenium和Phantomjs分析HTML的DOM結構,經過find_elements_by_xpath函數獲取原圖路徑URL、圖集的主題和圖片數量。如圖:web



        經過該函數便可獲取每一個圖集的主題、URL及圖片個數,同時根據圖集主題建立相應的文件夾,代碼中涉及正則表達式獲取圖片數量,從"共19張"到數字"19"。如圖:



         3.再調用函數getScript(elem_url, path, nums),參數分別是圖片url、保存路徑和圖片數量。那麼如何獲取下一張圖片的URL呢?
        當經過步驟二爬取了圖集URL,如: http://photo.hupu.com/nba/p29556.html
        (1).若是是經過Ajax、JavaScript動態加載的圖片,url無規律則須要調用Selenium動態模擬鼠標操做點擊「下一張」來獲取原圖url;
        (2).但不少網站都會存在一些規律,如虎撲的第九張圖片連接以下,經過URL字符串分割處理便可實現:"p29556-"+"數字"+".html"便可。
          http://photo.hupu.com/nba/p29556-9.html


         在該函數中,我第一次也是經過Selenium分析HTML結構獲取原始圖片url,但每張圖片都須要調用一次Phantomjs無界面瀏覽器,這速度太慢了。故該成了正則表達式獲取HTML中的原圖URL,其緣由以下圖:
        虎撲又偷懶了,它在下面定義了原圖連接,直接獲取便可。


        4.最後一步即urllib.urlretrieve(pic_url, pic_path + pic_name)下載圖片便可。
        固然你可能會遇到錯誤「Error: [Errno 22] invalid mode ('wb') or filename」,參考 stackoverflow

正則表達式




總結:


        這是一篇講述Selenium和Python爬取虎撲圖集的文章,文章內容算是爬蟲裏面比較基礎的,其中下載的「陳露」圖片和網站給出的34個圖集、902張圖片同樣。同時採用正則後時間估計3分鐘左右,很快~固然,虎撲裏面的標籤不少,足球應該也是相似,只要修改URL便可下載圖集,很是之方便。
        最近在學習Spider更爲普遍的Python爬取,也準備學習分佈式爬蟲、docker等。但願之後有機會真正講講如何實現深度搜索爬取和寬度搜索爬取等相關深層次內容,不要在這麼水了。固然,若是你是爬蟲初學者或Python初學者,這些實踐的東西都將對你有所幫助~
        最後但願讀到此處的朋友,能收穫一些東西,若是有錯誤或不足之處,還請海涵~最近正在認真學習中,很是指望本身能成爲一名大學老師,無知 · 樂觀 · 謙遜 · 低調 · 生活。
       (By:Eastmount 2015-10-25 深夜3點    http://blog.csdn.net/eastmount/)
相關文章
相關標籤/搜索