下載相應的瀏覽器驅動, Firefox 是默認的
本文以 chrome 爲主 ,放在scripts目錄下
ChromeDriver 官方下載地址 : 全部版本的 ChromeDriver css
關於 360 haosou.com
的測試 :html
1 #coding=utf-8 2 from selenium import webdriver 3 import os 4 import time
5 # set little time stop and big time stop for viewing changes 6 little_time_stop = 1 7 big_time_stop = 2 8 # 默認廣告條數 9 ads_num_require = 8 10 # 請求鏈接 11 req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1" 12 # 打開瀏覽器 13 14 browser = webdriver.Chrome() 15 # 開始請求 16 17 browser.get(req_url) 18 # 獲取全部的廣告 19 20 all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li') 21 # 當前廣告條數 22 ads_num_current = len(all_ads_li) 23 print "Has been got %d ads" %(ads_num_current) 24 # 若是廣告條數與默認不符 25 if ads_num_current < ads_num_require: 26 print "The number of ads is not enough ( current : %d require: %d)" %(ads_num_current,ads_num_require) 27 # exit() 28 # 獲取頂部鏈接 29 i = 0 30 for ads_li in all_ads_li: 31 time.sleep(big_time_stop) 32 i = i+1 33 print "ads %d :" %i 34 try: 35 main = ads_li.find_element_by_css_selector('h3 a') 36 except: 37 print "\tError: ads %d cann't find" %(i) 38 else: 39 print "\tReady: visit ads %d" %(i) 40 main.click() 41 print "\tSucess: visit ads %d" %(i) 42 time.sleep(little_time_stop) 43 try: 44 img_link = ads_li.find_element_by_class_name('e_biyi_img') 45 except: 46 print "\tError : no img in ads %d " %(i) 47 else: 48 print "\tReady : visit img_link %d" %(i) 49 img_link.click() 50 print "\tSuccess : visit img_link %d" %(i) 51 time.sleep(little_time_stop) 52 try: 53 child_div = ads_li.find_element_by_class_name('e_biyi_childLink'); 54 except: 55 print "\tError : no child link in ads %d" %(i) 56 else: 57 try: 58 child_links = child_div.find_elements_by_css_selector('a') 59 except: 60 print "\tError : find child_links error" 61 else: 62 num_links = len(child_links) 63 print "\tSuccess : there are %d child_links" %(num_links) 64 j = 0 65 for child_a in child_links: 66 j = j + 1 67 print "\t\tReady : visit child link %d in ads %d" %(j, i) 68 child_a.click() 69 print "\t\tSuccess : visit child link %d in ads %d" %(j, i) 70 time.sleep(little_time_stop) 71 print "End and thanks for your using!" 72 # 下面代碼選擇取消註釋 73 # 延時 74 # time.sleep(5) 75 # 關閉當前窗口 76 # browser.close() 77 # 關閉全部已經打開的窗口 78 # browser.quit()
如下是全部定位操做的 API :python
返回一個匹配元素, 即一個 WebElement 元素
find_element_by_id()
find_element_by_name()
find_element_by_class_name()
find_element_by_tag_name()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_xpath()
find_element_by_css_selector()
返回一個列表, 包含全部匹配的元素, 即一個 WebElement 列表
find_elements_by_id()
find_elements_by_name()
find_elements_by_class_name()
find_elements_by_tag_name()
find_elements_by_link_text()
find_elements_by_partial_link_text()
find_elements_by_xpath()
find_elements_by_css_selector()git
使用的時候需注意下面幾點 :github
WebDriver
和 WebElement
try: .. except: ...
機制避免錯誤的行爲影響程序繼續進行WebDriver
調用以上 API 進行全局定位 WebElement
調用以上 API 能夠進行層級定位, 即 查找當前元素的子元素
開始的時候必需要有初始化一個 WebDriver
實例, 即下面的 browser
用來對瀏覽器進行控制以及頁面的訪問web
# 請求鏈接
req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"
# 打開瀏覽器
browser = webdriver.Chrome()
# 開始請求
browser.get(req_url)
接着, 就可使用異常 API 進行當前頁面的全局查找, 好比 :chrome
# 獲取全部的廣告
all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')
使用 browser.find_element_by_xx()
獲得的是一個 WebElement
實例
使用得到的實例調用上面的 API 便可進行層級查找api
使用 browser.find_elements_by_xx()
獲得的是一個元素是 WebElement
實例的 list
經過對 list 的遍歷, 便可對各個實例進行相應的操做瀏覽器
browser.curren_url
: 獲取當前加載頁面的 URLbrowser.close()
: 關閉當前窗口, 若是當前窗口是最後一個窗口, 瀏覽器將關閉browser.quit()
: 關閉全部窗口並中止 ChromeDriver 的執行browser.add_cookie(cookie_dict)
: 爲當前會話添加 cookie browser.get_cookie(name)
: 獲得執行 cookie browser.get_cookies()
: 獲得全部的 cookiecookie
driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True})
browser.delete_all_cookies()
: 刪除當前會話的全部cookie browser.delete_cookie(name)
: 刪除指定 cookie
browser.back()
: 至關於瀏覽器的後退歷史記錄browser.forward()
: 至關於瀏覽器的前進歷史記錄browser.execute_script(script, *args)
: 同步執行 js 腳本 browser.execute_async_script(script, *args)
: 異步執行 js 腳本browser.get(url)
: 在當前窗口加載 urlbrowser.refresh()
: 刷新當前頁面browser.current_window_handle
: 當前窗口的 handle, 至關於一個指針同樣的東西, 用來指向當前窗口browser.window_handles
: 當前瀏覽器中的已經打開的全部窗口, 是一個 listbrowser.switch_to_window(window_handle)
: 切換 window_handle 指向的窗口browser.title
: 當前頁面的 titlebrowser.name
: 當前瀏覽器的名字webEle.clear()
: 清楚元素的內容, 假如這個元素是一個文本元素webEle.click()
: 點擊當前元素webEle,is_displayed()
: 當前元素是否可見webEle.is_enabled()
: 當前元素是否禁止, 好比常常會禁用一些元素的點擊webEle.is_selected()
: 當前元素是否選中, 文本輸入框的內容webEle.send_keys(*value)
: 向當前元素模擬鍵盤事件webEle.submit()
: 提交表單webEle.tag_name
: 當前元素的標籤名webEle.text
: 當前元素的內容webEle.get_attribute(name)
: 獲取當前元素執行屬性的值