歡迎關注微信公衆號:FSA全棧行動 👋css
Selenium 是一個 Web 自動化測試工具,最初是爲網站自動化測試而開發,Selenium 能夠直接調用瀏覽器,它支持全部主流的瀏覽器(包括 PhantomJS 這些無界面的瀏覽器),能夠接收指令,讓瀏覽器自動加載頁面,獲取須要的數據,甚至頁面截屏等。html
在下載好 chromedriver 以及安裝好 selenium 模塊後,執行下列代碼:python
from selenium import webdriver
# 若是driver沒有添加到環境變量,則須要將driver的絕對路徑賦值給executable_path參數
# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
# 若是driver添加了環境變量,則不須要設置executable_path
driver = webdriver.Chrome()
# 向一個url發起請求
driver.get('https://www.baidu.com')
# 把網頁保存爲圖片,69版本以上的谷歌瀏覽器將沒法使用截圖功能
driver.save_screenshot("screenshot.png")
print(driver.title) # 打印頁面標題
# 退出模擬瀏覽器
driver.quit() # 必定要退出!不退出會有殘留進程!
複製代碼
PhantomJS 是一個基於 Webkit 的"無界面"(headless)瀏覽器,它會把網站加載到內存並執行頁面上的 JavaScript。下載地址:phantomjs.org/downloadandroid
from selenium import webdriver
driver = webdriver.PhantomJS()
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')
# 向一個url發起請求
driver.get('https://www.baidu.com')
# 把網頁保存爲圖片
driver.save_screenshot('screenshot.png')
# 退出模擬瀏覽器
driver.quit() # 必定要退出!不退出會有殘留進程!
複製代碼
利用瀏覽器原生 API,封裝成一套更加面向對象的 Selenium WebDriver API,直接操做瀏覽器頁面裏的元素,甚至操做瀏覽器自己(截屏、窗口大小、啓動、關閉、安裝插件、配置證書...)web
pip/pip3 install selenium
pip/pip3 install selenium==版本號
複製代碼
以 Chrome 瀏覽器爲例:chrome
查看瀏覽器版本號npm
下載對應版本的驅動windows
chromedriver
配置環境變量【可選】api
echo $PATH
查看已經配置的環境變量路徑/usr/local/bin
),把 chromedriver
拷貝過去便可chromedriver
所在目錄,追加到 Path 變量下便可注意:不一樣版本瀏覽器對應的 driver 是不同的,儘可能使用與瀏覽器版本號一致的 driver(通常大版本號一致是能夠兼容的,例如 瀏覽器 91.0.4472.124,驅動 91.0.4472.19)。不然會報錯,好比:
This version of ChromeDriver only supports Chrome version 92 Current browser version is 91.0.4472.124
瀏覽器
使用 Selenium 啓動 Chrome 瀏覽器,打開百度網頁,在搜索框中輸入文字後,點擊搜索按鈕:
import time
from selenium import webdriver
# chromedriver已經添加到環境變量
# driver = webdriver.Chrome()
# 經過指定chromedriver的路徑來實例化driver對象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
# 控制瀏覽器訪問url地址
driver.get('https://www.baidu.com')
# 在百度搜索框中搜索 'python'
driver.find_element_by_id('kw').send_keys('python')
# 點擊 "百度搜索"
driver.find_element_by_id('su').click()
time.sleep(6)
# 退出瀏覽器
driver.quit()
複製代碼
webdriver.Chrome(executable_path='./chromedriver')
中 executable 參數指定的是下載好的 chromedriver 文件路徑driver.find_element_by_id('kw').send_keys('python')
定位 id 屬性值是 'kw' 的標籤,並向其中輸入字符串 'python'driver.find_element_by_id('su').click()
定位 id 屬性值是 'su' 的標籤,並點擊
driver.page_source
:當前標籤頁瀏覽器渲染以後的網頁源代碼driver.current_url
:當前標籤頁的 url(多是重寫向後的 url)driver.close()
:關閉當前標籤頁,若是隻有一個標籤頁則關閉整個瀏覽器driver.quit()
:關閉瀏覽器driver.forward()
:頁面前進driver.back()
:頁面後退driver.screen_shot(img_name)
:頁面截圖舉例:
from selenium import webdriver
import time
# 建立一個瀏覽器對象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
# 訪問指定的url地址
driver.get('http://www.baidu.com')
# 顯示源碼
print(driver.page_source)
# 顯示響應對應的url
print(driver.current_url) # https://www.baidu.com/
# 標籤頁標題
print(driver.title) # 百度一下,你就知道
time.sleep(2)
driver.get('http://www.douban.com')
time.sleep(2)
driver.back()
time.sleep(2)
driver.forward()
# 保存網頁快照,經常使用於驗證是否運行或者驗證碼截圖
driver.save_screenshot('douban.png')
time.sleep(2)
# 關閉標籤頁
# driver.close()
# 關閉瀏覽器
driver.quit()
複製代碼
find_element_by_id
:返回一個元素find_element(s)_by_class_name
:根據類名獲取元素列表find_element(s)_by_name
:根據標籤的 name 屬性值返回包含標籤對象元素的列表find_element(s)_by_xpath
:返回一 列表find_element(s)_by_link_text
:根據連接文本獲取元素列表find_element(s)_by_partial_link_text
:根據部分連接文本獲取元素列表find_element(s)_by_tag_name
:根據標籤名獲取元素列表find_element(s)_by_css_selector
:根據 css 選擇器來獲取元素列表注意:
find_element
和 find_elements
的區別:
find_element
返回匹配的第一個標籤對象,匹配不到就拋出異常find_elements
返回標籤對象列表,匹配不到就返回空列表by_link_text
和 by_partial_link_text
的區別:
by_link_text
:匹配所有文本by_partial_link_text
:匹配包含某個文本舉例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('http://www.baidu.com')
# 根據xpath進行元素定位
# driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python3')
# 根據css選擇器進行元素定位
# driver.find_element_by_css_selector('#kw').send_keys('python3')
# 根據name屬性值進行元素定位
# driver.find_element_by_name('wd').send_keys('python3')
# 根據class屬性值進行元素定位
# driver.find_element_by_class_name('s_ipt').send_keys('python3')
# 根據id屬性值進行元素定位
# driver.find_element_by_id('su').click()
# 根據連接文本進行元素定位
# driver.find_element_by_link_text('hao123').click()
# 根據部分連接文本進行元素定位
# driver.find_element_by_partial_link_text('hao').click()
# 根據標籤名進行元素定位
# 限制:目標元素在當前html中是惟一標籤的時候或者是衆多定位出來的標籤中的第一個的時候才能使用
driver.find_element_by_tag_name('title')
複製代碼
find_element
只能獲取元素,不能直接獲取其中的數據,若是須要獲取數據須要使用如下方法:
element.text
:經過定位獲取的標籤對象的 text
屬性,獲取文本內容element.get_attribute("屬性名")
:經過定位獲取的標籤對象的 get_attribute
函數,傳入屬性名,來獲取標籤屬性值舉例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('https://sz.58.com/chuzu/')
el_list = driver.find_elements_by_xpath('//li[@class="house-cell realverify"]//a[@class="strongbox"]')
for el in el_list:
print(el.text, el.get_attribute('href'))
# el.click() # el必須是可點擊的,不然會報錯
# el.send_keys(data) # el必須是 text input 這類可輸入的標籤
# el.clear() # 對輸入框作清空操做
複製代碼
當 selenium 控制瀏覽器打開多個標籤時,就須要進行標籤頁切換了,操做步驟以下:
窗口句柄:指向標籤頁對象的標識
方法:
# 1. 獲取當前全部的標籤頁的句柄構成的列表
current_windows = driver.window_handles
# 2. 根據標籤頁句柄列表索引下標進行切換
driver.switch_to.window(current_window[0])
複製代碼
舉例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('https://jn.58.com/')
print(driver.current_url) # https://jn.58.com/
print(driver.window_handles) # ['CDwindow-C612EA61989BAA']
# 定位到「租房」a標籤
el = driver.find_element_by_xpath('//span[@class="contentAdTilRt"]/a[text()="租房"]')
el.click()
print(driver.window_handles) # ['CDwindow-C612EA61989BAA', 'CDwindow-45CEE57C52AAB2FE']
# 切換到最新的標籤頁面
driver.switch_to.window(driver.window_handles[-1])
print(driver.current_url) # https://jn.58.com/chuzu/
複製代碼
switch_to
切換 frame 標籤iframe 是 html 中經常使用的一種技術 ,即一個頁面中嵌套了另外一個網頁,selenium 默認是訪問不了 frame 中的內容的,須要使用代碼切換到指定的 frame 中再進行後續的操做。
方法:
# 能夠傳入frame標籤的id
driver.switch_to.frame(frame_id)
# 當id沒法獲取到時,也能夠傳入(經過xpath等方式)定位到的frame標籤對象
driver.switch_to.frame(frame_element)
複製代碼
舉例:
from selenium import webdriver
qq_username = ''
qq_password = ''
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('https://qzone.qq.com/')
# 切換到帳號登陸iframe
driver.switch_to.frame('login_frame') # <iframe id="login_frame" ...></iframe>
# driver.switch_to.frame(driver.find_element_by_id('login_frame'))
# 點擊 帳號密碼登陸
driver.find_element_by_id("switcher_plogin").click()
# 輸入帳號密碼
driver.find_element_by_id('u').send_keys(qq_username)
driver.find_element_by_id('p').send_keys(qq_password)
# 點擊登陸
driver.find_element_by_id('login_button').click()
複製代碼
driver.get_cookies()
返回列表,其中包含了完整的 cookie 信息,即不光有 name、value,還有 domain 等其餘維度的信息,因此若是想把獲取的 cookie 信息和 requests 模塊配合使用的話,須要轉換爲 name、value 做爲鍵值對的 cookie 字典。
舉例:
# 獲取當前標籤頁的所有cookie信息
print(driver.get_cookies())
# 將cookie信息轉可用於requests使用的cookie字典
cookies_dict = {data['name']: data['value'] for data in driver.get_cookies()}
複製代碼
# 刪除一條cookie
driver.delete_cookie('CookieName')
# 刪除全部的cookie
driver.delete_all_cookies()
複製代碼
selenium 可讓瀏覽器執行咱們規定的 js 代碼,好比,頁面向下滾動等等。
方法:
driver.execute_script(js_script)
複製代碼
舉例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('https://sz.lianjia.com/')
# js代碼:向下滾動500像素
js_script = 'scrollTo(0, 500)'
driver.execute_script(js_script)
# 點擊Android App下載按鈕(默認位置超過屏幕高度,不在視野中)
el_apk = driver.find_element_by_xpath('//div[@class="hand-app"]/a[@class="android"]')
el_apk.click()
複製代碼
注意:若是 Selenium 點擊了不在視野內的元素會報錯,因此須要等將頁面滾動的元素可見。
強制等待很簡單,直接使用 time 模塊便可。
方法:
import time
time.sleep()
複製代碼
這種方式的缺點是不智能,設置的時間過短,元素可能尚未加載出來;設置的時間太長,則會浪費時間。
隱式等待針對的是元素定位,隱式等待設置了一個時間,在一段時間內判斷元素是否認位成功,若是成功,就進行下一步(可能提早,節省時間),若是在設置的時間內沒有定位成功,則會報超時異常。
方法:
driver.implicitly_wait(timeout)
複製代碼
注意:timeout 的單位是秒
舉例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
# 在這段設置代碼以後,全部的元素定位操做都有最大等待時間10s,在10s內會按期進行元素定位,超過設置時間以後將會報錯
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')
# 定位一個不存在的元素
el = driver.find_element_by_xpath('//*[@id="lg"]/img[10000]')
print(el)
複製代碼
每通過多少秒就查看一次等待條件是否達成,若是達成就中止等待,繼續執行後續代碼;若是沒有達成就繼續等待,直到超過規定的時間,報超時異常。
區別:
舉例:
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('http://www.baidu.com')
# 每0.5秒一次檢查,經過連接文本內容定位標籤是否存在,若是存在就向下繼續執行;若是不存在,直到20秒上限就拋超時異常
WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located((By.LINK_TEXT, '好123')))
print(driver.find_element_by_link_text('好123').get_attribute('href'))
driver.quit()
複製代碼
presence_of_element_located((By.LINK_TEXT, '好123'))
示經過連接文本內容定位標籤絕大多數服務器是沒有界面的,全部須要使用 selenium 無頭瀏覽器,有 2 種方式:
注意:MacOS 中 chrome 瀏覽器 59+版本,Linux 中 57+版本才能使用無界面模式。
方法:
# 建立配置對象
options = webdriver.ChromeOptions()
# 配置對象添加開啓無界面模式的命令
options.add_argument('--headless')
# 配置對象添加禁用gpu的命令
options.add_argument('--disable-gpu')
# 實例化帶有配置對象的driver對象
driver = webdriver.Chrome(chrome_options=options)
複製代碼
selenium 控制瀏覽器也是可使用代理 ip 的。
方法:
# 建立配置對象
options = webdriver.ChromeOptions()
# 配置代理ip
options.add_argument('--proxy-server=http://150.138.253.70:808')
# 實例化帶有配置對象的driver對象
driver = webdriver.Chrome(chrome_options=options)
複製代碼
注意:更換 ip 代理,必須從新啓動瀏覽器。
selenium 控制谷歌瀏覽器時,User-Agent 默認是谷歌瀏覽器的,有時候咱們可能須要對 User-Agent 進行替換,新版 Chrome 也支持配置 User-Agent。
方法:
# 建立配置對象
options = webdriver.ChromeOptions()
# 更換User-Agent
options.add_argument('--user-agent=Opera/9.23 (X11; Linux x86_64; U; en)')
# 實例化帶有配置對象的driver對象
driver = webdriver.Chrome(chrome_options=options)
複製代碼
安利:在線查看 User-Agent 小工具 service.spiritsoft.cn/ua.html
若是文章對您有所幫助, 請不吝點擊關注一下個人微信公衆號:FSA全棧行動, 這將是對我最大的激勵. 公衆號不只有Android技術, 還有iOS, Python等文章, 可能有你想要了解的技能知識點哦~