做爲一名從小就看籃球的球迷,會常常逛虎撲籃球及溼乎乎等論壇,在論壇裏面會存在不少精美圖片,包括NBA球隊、CBA明星、花邊新聞、球鞋美女等等,若是一張張右鍵另存爲的話真是手都點疼了。做爲程序員仍是寫個程序來進行吧!
因此我經過Python+Selenium+正則表達式+urllib2進行海量圖片爬取。
前面講過太多Python爬蟲相關的文章了,如爬取新浪博客、維基百科Infobox、百度百科、遊迅網圖片,也包括Selenium安裝過程等等,詳見個人兩個專欄:
Python學習系列
Python爬蟲之Selenium+Phantomjs+CasperJS
html
運行效果以下圖所示,其中第一幅圖是虎撲網站爬取tag(標籤)爲馬刺的圖集,第二幅圖是爬取tag爲陳露的圖集。每一個文件夾命名對應網頁主題,並且圖片都是完整的。
http://photo.hupu.com/nba/tag/馬刺
http://photo.hupu.com/nba/tag/陳露
python
1 # -*- coding: utf-8 -*- 2 """ 3 Crawling pictures by selenium and urllib 4 url: 虎撲 馬刺 http://photo.hupu.com/nba/tag/%E9%A9%AC%E5%88%BA 5 url: 虎撲 陳露 http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2 6 Created on 2015-10-24 7 @author: Eastmount CSDN 8 """ 9 10 import time 11 import re 12 import os 13 import sys 14 import urllib 15 import shutil 16 import datetime 17 from selenium import webdriver 18 from selenium.webdriver.common.keys import Keys 19 import selenium.webdriver.support.ui as ui 20 from selenium.webdriver.common.action_chains import ActionChains 21 22 #Open PhantomJS 23 driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe") 24 #driver = webdriver.Firefox() 25 wait = ui.WebDriverWait(driver,10) 26 27 #Download one Picture By urllib 28 def loadPicture(pic_url, pic_path): 29 pic_name = os.path.basename(pic_url) #刪除路徑獲取圖片名字 30 pic_name = pic_name.replace('*','') #去除'*' 防止錯誤 invalid mode ('wb') or filename 31 urllib.urlretrieve(pic_url, pic_path + pic_name) 32 33 34 #爬取具體的圖片及下一張 35 def getScript(elem_url, path, nums): 36 try: 37 #因爲連接 http://photo.hupu.com/nba/p29556-1.html 38 #只需拼接 http://..../p29556-數字.html 省略了自動點擊"下一張"操做 39 count = 1 40 t = elem_url.find(r'.html') 41 while (count <= nums): 42 html_url = elem_url[:t] + '-' + str(count) + '.html' 43 #print html_url 44 ''' 45 driver_pic.get(html_url) 46 elem = driver_pic.find_element_by_xpath("//div[@class='pic_bg']/div/img") 47 url = elem.get_attribute("src") 48 ''' 49 #採用正則表達式獲取第3個<div></div> 再獲取圖片URL進行下載 50 content = urllib.urlopen(html_url).read() 51 start = content.find(r'<div class="flTab">') 52 end = content.find(r'<div class="comMark" style>') 53 content = content[start:end] 54 div_pat = r'<div.*?>(.*?)<\/div>' 55 div_m = re.findall(div_pat, content, re.S|re.M) 56 #print div_m[2] 57 link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", div_m[2]) 58 #print link_list 59 url = link_list[0] #僅僅一條url連接 60 loadPicture(url, path) 61 count = count + 1 62 63 except Exception,e: 64 print 'Error:',e 65 finally: 66 print 'Download ' + str(count) + ' pictures\n' 67 68 69 #爬取主頁圖片集的URL和主題 70 def getTitle(url): 71 try: 72 #爬取URL和標題 73 count = 0 74 print 'Function getTitle(key,url)' 75 driver.get(url) 76 wait.until(lambda driver: driver.find_element_by_xpath("//div[@class='piclist3']")) 77 print 'Title: ' + driver.title + '\n' 78 79 #縮略圖片url(此處無用) 圖片數量 標題(文件名) 注意順序 80 elem_url = driver.find_elements_by_xpath("//a[@class='ku']/img") 81 elem_num = driver.find_elements_by_xpath("//div[@class='piclist3']/table/tbody/tr/td/dl/dd[1]") 82 elem_title = driver.find_elements_by_xpath("//div[@class='piclist3']/table/tbody/tr/td/dl/dt/a") 83 for url in elem_url: 84 pic_url = url.get_attribute("src") 85 html_url = elem_title[count].get_attribute("href") 86 print elem_title[count].text 87 print html_url 88 print pic_url 89 print elem_num[count].text 90 91 #建立圖片文件夾 92 path = "E:\\Picture_HP\\" + elem_title[count].text + "\\" 93 m = re.findall(r'(\w*[0-9]+)\w*', elem_num[count].text) #爬蟲圖片張數 94 nums = int(m[0]) 95 count = count + 1 96 if os.path.isfile(path): #Delete file 97 os.remove(path) 98 elif os.path.isdir(path): #Delete dir 99 shutil.rmtree(path, True) 100 os.makedirs(path) #create the file directory 101 getScript(html_url, path, nums) #visit pages 102 103 except Exception,e: 104 print 'Error:',e 105 finally: 106 print 'Find ' + str(count) + ' pages with key\n' 107 108 #Enter Function 109 def main(): 110 #Create Folder 111 basePathDirectory = "E:\\Picture_HP" 112 if not os.path.exists(basePathDirectory): 113 os.makedirs(basePathDirectory) 114 115 #Input the Key for search str=>unicode=>utf-8 116 key = raw_input("Please input a key: ").decode(sys.stdin.encoding) 117 print 'The key is : ' + key 118 119 #Set URL List Sum:1-2 Pages 120 print 'Ready to start the Download!!!\n\n' 121 starttime = datetime.datetime.now() 122 num=1 123 while num<=1: 124 #url = 'http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2?p=2&o=1' 125 url = 'http://photo.hupu.com/nba/tag/%E9%A9%AC%E5%88%BA' 126 print '第'+str(num)+'頁','url:'+url 127 #Determine whether the title contains key 128 getTitle(url) 129 time.sleep(2) 130 num = num + 1 131 else: 132 print 'Download Over!!!' 133 134 #get the runtime 135 endtime = datetime.datetime.now() 136 print 'The Running time : ',(endtime - starttime).seconds 137 138 main()
源程序主要步驟以下:
1.入口main函數中,在E盤下建立圖片文件夾Picture_HP,而後輸入圖集url,本打算輸入tag來進行訪問的,由於URL以下:
http://photo.hupu.com/nba/tag/馬刺
可是解析URL中文老是錯誤,故改爲輸入URL,這不影響大局。同時你可能發現了代碼中while循環條件爲num<=1,它只執行一次,建議須要下載哪頁圖集,就賦值URL便可。可是虎撲的不一樣頁連接以下,經過分析URL拼接也是能夠實現循環獲取全部頁的。
http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2?p=2&o=1
程序員
2.調用getTitle(rul)函數,經過Selenium和Phantomjs分析HTML的DOM結構,經過find_elements_by_xpath函數獲取原圖路徑URL、圖集的主題和圖片數量。如圖:web
4.最後一步即urllib.urlretrieve(pic_url, pic_path + pic_name)下載圖片便可。
固然你可能會遇到錯誤「Error: [Errno 22] invalid mode ('wb') or filename」,參考 stackoverflow
正則表達式