抓取靜態網站的數據,只是根據須要組合出合適的url列表,以後編寫方法spider獲取指定url上的數據就能夠了。但若是網站是動態的,例如在這個站點「http://www.zgyyjgw.com/front/cn/hospitalPrice」,從源代碼中咱們能夠看出,該站點使用的是javascript與css。咱們查詢「胰高血糖素試驗」的價格,首先須要在「省份」中填入對應的省份,在項目名稱中填入「胰高血糖素試驗」,點擊右側的查找,會在下側顯示查詢到的信息。javascript
能夠注意到,整個過程,瀏覽器地址欄中一直都是「http://www.zgyyjgw.com/front/cn/hospitalPrice」沒有發生改變,因此像靜態頁面那樣經過修改url的方法來獲取對應的信息在這裏根本就行不通了。css
雖然python中的urllib模塊中有相應的函數來處理這類動態頁面,但過於麻煩,這裏咱們選用一個簡便的方法,使用瀏覽器模擬器。java
在網上下載無界面瀏覽器PhantomJS,利用pip下載模塊selenium(這裏推薦版本2.53.6,而不是最新版本,最新版本的selenium不支持PhantomJS),創建main.py,編寫涉及和使用到的類與方法,代碼以下:python
1 from selenium import webdriver 2 from selenium.webdriver.support.select import Select 3 from myLog import MyLog 4 import time 5 import xlwt 6 7 class Item(object): 8 shengfen = None #省份 9 xiangmubianhao = None #項目編號 10 xiangmumingcheng = None #項目名稱 11 xiangmuneihan = None #項目內涵 12 chuwaineirong = None #除外內容 13 danwei = None #單位 14 jiage = None #價格 15 shuoming = None #說明 16 wenhao = None #文號 17 zhixingriqi = None #執行日期 18 19 class Get_medicalprice(object): 20 def __init__(self): 21 self.hospitalPriceurl = 'http://www.zgyyjgw.com/front/cn/hospitalPrice' 22 self.log = MyLog() 23 self.filename = u'醫療服務價格.xls'.encode('GBK') 24 self.namelist = self.getname('name.txt') 25 self.hospitallist = self.gethospitalprice(self.hospitalPriceurl,self.namelist) 26 self.savefiletoxls(self.filename,self.hospitallist) 27 28 def getname(self,filename): 29 namelist = [] 30 with open(filename,'r') as fp: 31 s = fp.read() 32 for name in s.split(): 33 namelist.append(name) 34 self.log.info('open namelist success , the length of list is %d' % len(namelist)) 35 return namelist 36 37 def gethospitalprice(self,url,namelist): 38 list_hospitalprice = [] 39 return list_hospitalprice 40 41 def savefiletoxls(self,filename,hospitallist): 42 self.log.info('save data to excel') 43 book = xlwt.Workbook(encoding = 'utf8',style_compression=0) 44 sheet = book.add_sheet(u'醫療服務項目收費') 45 sheet.write(0,0,u'省份'.encode('utf8')) 46 sheet.write(0,1,u'項目編號'.encode('utf8')) 47 sheet.write(0,2,u'項目名稱'.encode('utf8')) 48 sheet.write(0,3,u'項目內涵'.encode('utf8')) 49 sheet.write(0,4,u'除外內容'.encode('utf8')) 50 sheet.write(0,5,u'單位'.encode('utf8')) 51 sheet.write(0,6,u'價格'.encode('utf8')) 52 sheet.write(0,7,u'說明'.encode('utf8')) 53 sheet.write(0,8,u'文號'.encode('utf8')) 54 sheet.write(0,9,u'執行日期'.encode('utf8')) 55 for i in range(1,len(hospitallist)+1): 56 item = hospitallist[i-1] 57 sheet.write(i,0,item.shengfen) 58 sheet.write(i,1,item.xiangmubianhao) 59 sheet.write(i,2,item.xiangmumingcheng) 60 sheet.write(i,3,item.xiangmuneihan) 61 sheet.write(i,4,item.chuwaineirong) 62 sheet.write(i,5,item.danwei) 63 sheet.write(i,6,item.jiage) 64 sheet.write(i,7,item.shuoming) 65 sheet.write(i,8,item.wenhao) 66 sheet.write(i,9,item.zhixingriqi) 67 book.save(filename) 68 self.log.info('save excel success') 69 70 71 if __name__ == '__main__': 72 Get_medicalprice()
其中,類Item定義了咱們須要從網頁獲取到的全部信息;類Get_medicalprice爲爬蟲主程序;方法__init__定義了整個爬蟲的工做流程;方法getname從「name.txt」中獲取須要查找的醫療服務項目名稱,返回名稱列表;方法gethospitalprice爲爬蟲的關鍵,負責根據getname返回的名稱列表在頁面中查找對應的信息並保存;方法savefiletoxls負責將gethospitalprice獲取到的全部信息保存到電子錶中。web
咱們如今開始來補充方法gethospitalprice中的代碼。windows
使用selenium模擬調用瀏覽器PhantomJS,首先用「#」註釋掉__init__中的「self.savefiletoxls(self.filename,self.hospitallist)」,出於測試目的,這裏只讓瀏覽器截圖查看模擬效果而不進一步抓取數據。在gethospitalprice中增長代碼以下:瀏覽器
1 def gethospitalprice(self,url,namelist): 2 browser = webdriver.PhantomJS() 3 list_hospitalprice = [] 4 browser.get(url) 5 #browser.implicitly_wait(10) 6 for name in namelist: 7 textelement = browser.find_element_by_id('projectname') 8 textelement.clear() #清除text中已輸入的項目 9 try: 10 textelement.send_keys(name.decode('GBK')) #text中填入項目名稱 11 except: 12 self.log.error('get data %s error ' % name) 13 continue 14 else: 15 self.log.info('get data %s \n' % name.decode('GBK')) 16 selectelement = browser.find_element_by_id('provName') 17 Select(selectelement).select_by_value(u'河南省') #使用select控件選擇河南省 18 submitelement = browser.find_element_by_class_name('l-btn-left') 19 submitelement.click() #點擊查詢按鈕 20 time.sleep(10) 21 browser.get_screenshot_as_file('%s.png' % name) #進行查詢後讓瀏覽器截圖,以查看程序是否運行正常
在這裏,模塊selenium自己自帶的implicitly_wait效果比time裏的sleep要好,因此平時儘可能優先使用implicitly_wait,而這裏依舊使用time.sleep是爲防止被服務器攔截而強制讓程序降速。根據頁面源代碼,找到相應控件的id,如這裏的「projectname」、「provName」,利用find_element_by_id來定位。其中用於選擇省份的控件是個select,須要用到selenium.webdriver.support.select中的Select。經過send_keys來向「provName」的文本框控件中發送項目名稱時,特別須要注意的是漢字編碼,由於name.txt是在windows下建立的,編碼用的是"GBK'',因此這裏須要先用decode("GBK")把項目名稱進行反編碼。服務器
但有個問題是「查找」按鈕很差定位,沒有明顯的id和class。右鍵點擊「查找」按鈕,選擇「審查元素」,這裏能夠看到該控件的class爲「l-btn-left」(雖然那個「清空」按鈕的class也是「l-btn-left」,但並沒太大的影響,「查找」比「清空」位置靠前,find_element_by_class_name返回的是檢索到的第一個符合條件的控件),利用find_element_by_class_name('l-btn-left')來定位。app
在最後增長一條語句 browser.get_screenshot_as_file('%s.png' % name) 來讓瀏覽器自動截圖並保存成「項目名稱.png」的圖片,以便方便查看肯定程序是否在正常運行。ide
點擊run運行程序,在目錄下隨便打開一張png圖片,以下圖:
爬蟲程序已經成功選擇了設定的「省份」,填入了讀取到的項目名稱,併成功點擊了「查找」按鈕,並且成功地獲取到了咱們須要的信息。
好了,下面咱們就開始和之前同樣抓取頁面上的信息。
查看頁面源代碼,能夠看到存放數據的位置在標籤tbody下,但tbody不惟一,而上層的標籤table,class值爲「xxbTable」,經過搜索後發現是惟一的。因此這裏咱們先定位class值爲「xxbTable」的標籤table,隨後再依次定位tbody,tr,td。
1 resultelement = browser.find_element_by_class_name('xxbTable') 2 #print resultelement.text 3 elements=resultelement.find_elements_by_xpath('./tbody[2]/tr/td') 4 item = Item() 5 if len(elements)==0: 6 self.log.info('%s has no data' % name.decode('GBK')) 7 else: 8 self.log.info('save data %s to list' % name.decode('GBK')) 9 item.shengfen = elements[1].text 10 item.xiangmubianhao = elements[2].text 11 item.xiangmumingcheng = elements[3].text 12 item.xiangmuneihan = elements[4].text 13 item.chuwaineirong = elements[5].text 14 item.danwei = elements[6].text 15 item.jiage = elements[7].text 16 item.shuoming = elements[8].text 17 item.wenhao = elements[9].text 18 item.zhixingriqi = elements[10].text 19 list_hospitalprice.append(item)
tbody不是惟一的,因此在肯定需求的是哪一部分的時候,能夠先用定位到tbody處,使用for循環打印下此處的文本,代碼以下:
1 resultelement = browser.find_element_by_class_name('xxbTable') 2 #print resultelement.text 3 elements=resultelement.find_elements_by_xpath('./tbody') 4 for i in elements: 5 print i.text
運行結果以下:
tbody[0]爲空,tbody[1]是列名,tbody[2]纔是咱們須要的數據。
最終運行後,生成的結果被方法savefiletoxls保存到電子錶'醫療服務價格.xls'中
如下爲「main.py」文件的完整代碼:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
1 from selenium import webdriver 2 from selenium.webdriver.support.select import Select 3 from myLog import MyLog 4 import time 5 import xlwt 6 7 class Item(object): 8 shengfen = None 9 xiangmubianhao = None 10 xiangmumingcheng = None 11 xiangmuneihan = None 12 chuwaineirong = None 13 danwei = None 14 jiage = None 15 shuoming = None 16 wenhao = None 17 zhixingriqi = None 18 19 class Get_medicalprice(object): 20 def __init__(self): 21 self.hospitalPriceurl = 'http://www.zgyyjgw.com/front/cn/hospitalPrice' 22 self.log = MyLog() 23 self.filename = u'醫療服務價格.xls'.encode('GBK') 24 self.namelist = self.getname('name.txt') 25 self.hospitallist = self.gethospitalprice(self.hospitalPriceurl,self.namelist) 26 self.savefiletoxls(self.filename,self.hospitallist) 27 28 def getname(self,filename): 29 namelist = [] 30 with open(filename,'r') as fp: 31 s = fp.read() 32 for name in s.split(): 33 namelist.append(name) 34 self.log.info('open namelist success , the length of list is %d' % len(namelist)) 35 return namelist 36 37 def gethospitalprice(self,url,namelist): 38 browser = webdriver.PhantomJS() 39 list_hospitalprice = [] 40 n = 1 41 self.log.info('open the link %s' % url) 42 browser.get(url) 43 #browser.implicitly_wait(10) 44 for name in namelist: 45 textelement = browser.find_element_by_id('projectname') 46 textelement.clear() 47 try: 48 textelement.send_keys(name.decode('GBK')) #text中填入項目名稱 49 except: 50 self.log.error('get data %s error (%d)' % (name,n)) 51 n += 1 52 continue 53 else: 54 self.log.info('get data %s (%d)\n' % (name.decode('GBK'),n)) 55 n += 1 56 selectelement = browser.find_element_by_id('provName') 57 Select(selectelement).select_by_value(u'河南省') #省份select控件選擇河南省 58 submitelement = browser.find_element_by_class_name('l-btn-left') 59 submitelement.click() #點擊查詢按鈕 60 time.sleep(10) 61 #print browser.page_source 62 #browser.get_screenshot_as_file('test.png') 63 resultelement = browser.find_element_by_class_name('xxbTable') 64 #print resultelement.text 65 elements=resultelement.find_elements_by_xpath('./tbody[2]/tr/td') 66 item = Item() 67 if len(elements)==0: 68 self.log.info('%s has no data' % name.decode('GBK')) 69 else: 70 self.log.info('save data %s to list' % name.decode('GBK')) 71 item.shengfen = elements[1].text 72 item.xiangmubianhao = elements[2].text 73 item.xiangmumingcheng = elements[3].text 74 item.xiangmuneihan = elements[4].text 75 item.chuwaineirong = elements[5].text 76 item.danwei = elements[6].text 77 item.jiage = elements[7].text 78 item.shuoming = elements[8].text 79 item.wenhao = elements[9].text 80 item.zhixingriqi = elements[10].text 81 list_hospitalprice.append(item) 82 return list_hospitalprice 83 84 def savefiletoxls(self,filename,hospitallist): 85 self.log.info('save data to excel') 86 book = xlwt.Workbook(encoding = 'utf8',style_compression=0) 87 sheet = book.add_sheet(u'醫療服務項目收費') 88 sheet.write(0,0,u'省份'.encode('utf8')) 89 sheet.write(0,1,u'項目編號'.encode('utf8')) 90 sheet.write(0,2,u'項目名稱'.encode('utf8')) 91 sheet.write(0,3,u'項目內涵'.encode('utf8')) 92 sheet.write(0,4,u'除外內容'.encode('utf8')) 93 sheet.write(0,5,u'單位'.encode('utf8')) 94 sheet.write(0,6,u'價格'.encode('utf8')) 95 sheet.write(0,7,u'說明'.encode('utf8')) 96 sheet.write(0,8,u'文號'.encode('utf8')) 97 sheet.write(0,9,u'執行日期'.encode('utf8')) 98 for i in range(1,len(hospitallist)+1): 99 item = hospitallist[i-1] 100 sheet.write(i,0,item.shengfen) 101 sheet.write(i,1,item.xiangmubianhao) 102 sheet.write(i,2,item.xiangmumingcheng) 103 sheet.write(i,3,item.xiangmuneihan) 104 sheet.write(i,4,item.chuwaineirong) 105 sheet.write(i,5,item.danwei) 106 sheet.write(i,6,item.jiage) 107 sheet.write(i,7,item.shuoming) 108 sheet.write(i,8,item.wenhao) 109 sheet.write(i,9,item.zhixingriqi) 110 book.save(filename) 111 self.log.info('save excel success') 112 113 114 if __name__ == '__main__': 115 Get_medicalprice()