Python - 爬蟲之Selenium

歡迎關注微信公衆號:FSA全棧行動 👋css

1、Selenium 的介紹

Selenium 是一個 Web 自動化測試工具,最初是爲網站自動化測試而開發,Selenium 能夠直接調用瀏覽器,它支持全部主流的瀏覽器(包括 PhantomJS 這些無界面的瀏覽器),能夠接收指令,讓瀏覽器自動加載頁面,獲取須要的數據,甚至頁面截屏等。html

一、Selenium 啓動 Chrome

在下載好 chromedriver 以及安裝好 selenium 模塊後,執行下列代碼:python

from selenium import webdriver

# 若是driver沒有添加到環境變量,則須要將driver的絕對路徑賦值給executable_path參數
# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')

# 若是driver添加了環境變量,則不須要設置executable_path
driver = webdriver.Chrome()

# 向一個url發起請求
driver.get('https://www.baidu.com')

# 把網頁保存爲圖片,69版本以上的谷歌瀏覽器將沒法使用截圖功能
driver.save_screenshot("screenshot.png")

print(driver.title)  # 打印頁面標題

# 退出模擬瀏覽器
driver.quit()  # 必定要退出!不退出會有殘留進程!
複製代碼

二、Selenium 啓動 PhantomJS

PhantomJS 是一個基於 Webkit 的"無界面"(headless)瀏覽器,它會把網站加載到內存並執行頁面上的 JavaScript。下載地址:phantomjs.org/downloadandroid

from selenium import webdriver

driver = webdriver.PhantomJS()
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')

# 向一個url發起請求
driver.get('https://www.baidu.com')

# 把網頁保存爲圖片
driver.save_screenshot('screenshot.png')

# 退出模擬瀏覽器
driver.quit()  # 必定要退出!不退出會有殘留進程!
複製代碼

無頭瀏覽器與有頭瀏覽器的使用場景

  • 一般開發過程當中須要查看運行過程當中的各類狀況因此一般使用有頭瀏覽器
  • 在項目完成進行部署的時候,一般平臺採用的系統都是服務器版的操做系統,服務器版的操做系統必須使用無頭瀏覽器才能正常運行

三、Selenium 的工做原理

利用瀏覽器原生 API,封裝成一套更加面向對象的 Selenium WebDriver API,直接操做瀏覽器頁面裏的元素,甚至操做瀏覽器自己(截屏、窗口大小、啓動、關閉、安裝插件、配置證書...)web

  • webdriver 本質是一個 web-server,對外提供 webapi,其中封裝了瀏覽器的各類功能
  • 不一樣的瀏覽器使用各自不一樣的 webdriver(由瀏覽器廠商提供)

2、Selenium 安裝及簡單使用

一、安裝 selenium

pip/pip3 install selenium
pip/pip3 install selenium==版本號
複製代碼

二、安裝 driver

以 Chrome 瀏覽器爲例:chrome

  • 查看瀏覽器版本號npm

  • 下載對應版本的驅動windows

  • 配置環境變量【可選】api

    • Mac/Linux:
      • 執行 echo $PATH 查看已經配置的環境變量路徑
      • 選擇其中一個目錄(好比:/usr/local/bin),把 chromedriver 拷貝過去便可
    • Windows:
      • 右擊此電腦 -> 屬性 --> 高級系統設置 --> 環境變量
      • chromedriver 所在目錄,追加到 Path 變量下便可

注意:不一樣版本瀏覽器對應的 driver 是不同的,儘可能使用與瀏覽器版本號一致的 driver(通常大版本號一致是能夠兼容的,例如 瀏覽器 91.0.4472.124,驅動 91.0.4472.19)。不然會報錯,好比:This version of ChromeDriver only supports Chrome version 92 Current browser version is 91.0.4472.124瀏覽器

三、Selenium 的簡單使用

使用 Selenium 啓動 Chrome 瀏覽器,打開百度網頁,在搜索框中輸入文字後,點擊搜索按鈕:

import time
from selenium import webdriver

# chromedriver已經添加到環境變量
# driver = webdriver.Chrome()
# 經過指定chromedriver的路徑來實例化driver對象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 控制瀏覽器訪問url地址
driver.get('https://www.baidu.com')

# 在百度搜索框中搜索 'python'
driver.find_element_by_id('kw').send_keys('python')
# 點擊 "百度搜索"
driver.find_element_by_id('su').click()

time.sleep(6)
# 退出瀏覽器
driver.quit()
複製代碼
  • webdriver.Chrome(executable_path='./chromedriver') 中 executable 參數指定的是下載好的 chromedriver 文件路徑
  • driver.find_element_by_id('kw').send_keys('python') 定位 id 屬性值是 'kw' 的標籤,並向其中輸入字符串 'python'
  • driver.find_element_by_id('su').click() 定位 id 屬性值是 'su' 的標籤,並點擊
    • click 函數做用:觸發標籤的 js 的 click 事件

3、Selenium 提取數據

一、driver 對象的經常使用屬性和方法

  • driver.page_source:當前標籤頁瀏覽器渲染以後的網頁源代碼
  • driver.current_url:當前標籤頁的 url(多是重寫向後的 url)
  • driver.close():關閉當前標籤頁,若是隻有一個標籤頁則關閉整個瀏覽器
  • driver.quit():關閉瀏覽器
  • driver.forward():頁面前進
  • driver.back():頁面後退
  • driver.screen_shot(img_name):頁面截圖

舉例:

from selenium import webdriver
import time

# 建立一個瀏覽器對象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 訪問指定的url地址
driver.get('http://www.baidu.com')

# 顯示源碼
print(driver.page_source)
# 顯示響應對應的url
print(driver.current_url)  # https://www.baidu.com/
# 標籤頁標題
print(driver.title)  # 百度一下,你就知道

time.sleep(2)
driver.get('http://www.douban.com')

time.sleep(2)
driver.back()

time.sleep(2)
driver.forward()

# 保存網頁快照,經常使用於驗證是否運行或者驗證碼截圖
driver.save_screenshot('douban.png')

time.sleep(2)
# 關閉標籤頁
# driver.close()
# 關閉瀏覽器
driver.quit()
複製代碼

二、driver 對象定位標籤元素獲取標籤對象的方法

  • find_element_by_id:返回一個元素
  • find_element(s)_by_class_name:根據類名獲取元素列表
  • find_element(s)_by_name:根據標籤的 name 屬性值返回包含標籤對象元素的列表
  • find_element(s)_by_xpath:返回一 列表
  • find_element(s)_by_link_text:根據連接文本獲取元素列表
  • find_element(s)_by_partial_link_text:根據部分連接文本獲取元素列表
  • find_element(s)_by_tag_name:根據標籤名獲取元素列表
  • find_element(s)_by_css_selector:根據 css 選擇器來獲取元素列表

注意:

  • find_elementfind_elements 的區別:
    • find_element 返回匹配的第一個標籤對象,匹配不到就拋出異常
    • find_elements 返回標籤對象列表,匹配不到就返回空列表
  • by_link_textby_partial_link_text 的區別:
    • by_link_text:匹配所有文本
    • by_partial_link_text:匹配包含某個文本

舉例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('http://www.baidu.com')

# 根據xpath進行元素定位
# driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python3')
# 根據css選擇器進行元素定位
# driver.find_element_by_css_selector('#kw').send_keys('python3')
# 根據name屬性值進行元素定位
# driver.find_element_by_name('wd').send_keys('python3')
# 根據class屬性值進行元素定位
# driver.find_element_by_class_name('s_ipt').send_keys('python3')

# 根據id屬性值進行元素定位
# driver.find_element_by_id('su').click()

# 根據連接文本進行元素定位
# driver.find_element_by_link_text('hao123').click()
# 根據部分連接文本進行元素定位
# driver.find_element_by_partial_link_text('hao').click()

# 根據標籤名進行元素定位
# 限制:目標元素在當前html中是惟一標籤的時候或者是衆多定位出來的標籤中的第一個的時候才能使用
driver.find_element_by_tag_name('title')
複製代碼

三、標籤對象提取文本內容和屬性值

find_element 只能獲取元素,不能直接獲取其中的數據,若是須要獲取數據須要使用如下方法:

  • element.text:經過定位獲取的標籤對象的 text 屬性,獲取文本內容
  • element.get_attribute("屬性名"):經過定位獲取的標籤對象的 get_attribute 函數,傳入屬性名,來獲取標籤屬性值

舉例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://sz.58.com/chuzu/')

el_list = driver.find_elements_by_xpath('//li[@class="house-cell realverify"]//a[@class="strongbox"]')

for el in el_list:
    print(el.text, el.get_attribute('href'))

# el.click() # el必須是可點擊的,不然會報錯
# el.send_keys(data) # el必須是 text input 這類可輸入的標籤
# el.clear() # 對輸入框作清空操做
複製代碼

4、Selenium 的其它使用方法

一、標籤頁切換

當 selenium 控制瀏覽器打開多個標籤時,就須要進行標籤頁切換了,操做步驟以下:

  • 獲取全部標籤頁的窗口句柄
  • 利用窗口句柄切換到句柄指向的標籤頁

窗口句柄:指向標籤頁對象的標識

方法:

# 1. 獲取當前全部的標籤頁的句柄構成的列表
current_windows = driver.window_handles

# 2. 根據標籤頁句柄列表索引下標進行切換
driver.switch_to.window(current_window[0])
複製代碼

舉例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://jn.58.com/')

print(driver.current_url)  # https://jn.58.com/
print(driver.window_handles)  # ['CDwindow-C612EA61989BAA']

# 定位到「租房」a標籤
el = driver.find_element_by_xpath('//span[@class="contentAdTilRt"]/a[text()="租房"]')
el.click()

print(driver.window_handles)  # ['CDwindow-C612EA61989BAA', 'CDwindow-45CEE57C52AAB2FE']

# 切換到最新的標籤頁面
driver.switch_to.window(driver.window_handles[-1])

print(driver.current_url)  # https://jn.58.com/chuzu/
複製代碼

二、switch_to 切換 frame 標籤

iframe 是 html 中經常使用的一種技術 ,即一個頁面中嵌套了另外一個網頁,selenium 默認是訪問不了 frame 中的內容的,須要使用代碼切換到指定的 frame 中再進行後續的操做。

方法:

# 能夠傳入frame標籤的id
driver.switch_to.frame(frame_id)

# 當id沒法獲取到時,也能夠傳入(經過xpath等方式)定位到的frame標籤對象
driver.switch_to.frame(frame_element)
複製代碼

舉例:

from selenium import webdriver

qq_username = ''
qq_password = ''

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://qzone.qq.com/')

# 切換到帳號登陸iframe
driver.switch_to.frame('login_frame')  # <iframe id="login_frame" ...></iframe>
# driver.switch_to.frame(driver.find_element_by_id('login_frame'))

# 點擊 帳號密碼登陸
driver.find_element_by_id("switcher_plogin").click()

# 輸入帳號密碼
driver.find_element_by_id('u').send_keys(qq_username)
driver.find_element_by_id('p').send_keys(qq_password)

# 點擊登陸
driver.find_element_by_id('login_button').click()
複製代碼

三、cookie 操做

1)獲取 cookie

driver.get_cookies() 返回列表,其中包含了完整的 cookie 信息,即不光有 name、value,還有 domain 等其餘維度的信息,因此若是想把獲取的 cookie 信息和 requests 模塊配合使用的話,須要轉換爲 name、value 做爲鍵值對的 cookie 字典。

舉例:

# 獲取當前標籤頁的所有cookie信息
print(driver.get_cookies())

# 將cookie信息轉可用於requests使用的cookie字典
cookies_dict = {data['name']: data['value'] for data in driver.get_cookies()}
複製代碼

2)刪除 cookie

# 刪除一條cookie
driver.delete_cookie('CookieName')
# 刪除全部的cookie
driver.delete_all_cookies()
複製代碼

四、控制瀏覽器執行 js 代碼

selenium 可讓瀏覽器執行咱們規定的 js 代碼,好比,頁面向下滾動等等。

方法:

driver.execute_script(js_script)
複製代碼

舉例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://sz.lianjia.com/')

# js代碼:向下滾動500像素
js_script = 'scrollTo(0, 500)'
driver.execute_script(js_script)

# 點擊Android App下載按鈕(默認位置超過屏幕高度,不在視野中)
el_apk = driver.find_element_by_xpath('//div[@class="hand-app"]/a[@class="android"]')
el_apk.click()
複製代碼

注意:若是 Selenium 點擊了不在視野內的元素會報錯,因此須要等將頁面滾動的元素可見。

五、頁面等待【瞭解】

1)強制等待(經常使用)

強制等待很簡單,直接使用 time 模塊便可。

方法:

import time

time.sleep()
複製代碼

這種方式的缺點是不智能,設置的時間過短,元素可能尚未加載出來;設置的時間太長,則會浪費時間。

2)隱式等待(經常使用)

隱式等待針對的是元素定位,隱式等待設置了一個時間,在一段時間內判斷元素是否認位成功,若是成功,就進行下一步(可能提早,節省時間),若是在設置的時間內沒有定位成功,則會報超時異常。

方法:

driver.implicitly_wait(timeout)
複製代碼

注意:timeout 的單位是秒

舉例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 在這段設置代碼以後,全部的元素定位操做都有最大等待時間10s,在10s內會按期進行元素定位,超過設置時間以後將會報錯
driver.implicitly_wait(10)

driver.get('http://www.baidu.com')

# 定位一個不存在的元素
el = driver.find_element_by_xpath('//*[@id="lg"]/img[10000]')

print(el)
複製代碼

3)顯示等待(不經常使用)

每通過多少秒就查看一次等待條件是否達成,若是達成就中止等待,繼續執行後續代碼;若是沒有達成就繼續等待,直到超過規定的時間,報超時異常。

區別:

  • 隱式等待:針對以後 全部 的元素定位
  • 顯示等待:針對 指定 的元素定位

舉例:

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('http://www.baidu.com')

# 每0.5秒一次檢查,經過連接文本內容定位標籤是否存在,若是存在就向下繼續執行;若是不存在,直到20秒上限就拋超時異常
WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located((By.LINK_TEXT, '好123')))

print(driver.find_element_by_link_text('好123').get_attribute('href'))
driver.quit()
複製代碼
  • 參數 20 表示最長等待 20 秒
  • 參數 0.5 表示 0.5 秒檢查一次規定的標籤是否存在
  • presence_of_element_located((By.LINK_TEXT, '好123')) 示經過連接文本內容定位標籤

六、開啓無界面模式

絕大多數服務器是沒有界面的,全部須要使用 selenium 無頭瀏覽器,有 2 種方式:

  • PhantomJS:自己就是無界面瀏覽器,但可能會被識別網站開發者反識別出來。(不推薦)
  • Chrome:新版 Chrome 支持無界面模式了,不過須要多一些配置。(推薦)

注意:MacOS 中 chrome 瀏覽器 59+版本,Linux 中 57+版本才能使用無界面模式。

方法:

# 建立配置對象
options = webdriver.ChromeOptions()
# 配置對象添加開啓無界面模式的命令
options.add_argument('--headless')
# 配置對象添加禁用gpu的命令
options.add_argument('--disable-gpu')

# 實例化帶有配置對象的driver對象
driver = webdriver.Chrome(chrome_options=options)
複製代碼

七、使用代理 ip

selenium 控制瀏覽器也是可使用代理 ip 的。

方法:

# 建立配置對象
options = webdriver.ChromeOptions()

# 配置代理ip
options.add_argument('--proxy-server=http://150.138.253.70:808')

# 實例化帶有配置對象的driver對象
driver = webdriver.Chrome(chrome_options=options)
複製代碼

注意:更換 ip 代理,必須從新啓動瀏覽器。

八、替換 user-agent

selenium 控制谷歌瀏覽器時,User-Agent 默認是谷歌瀏覽器的,有時候咱們可能須要對 User-Agent 進行替換,新版 Chrome 也支持配置 User-Agent。

方法:

# 建立配置對象
options = webdriver.ChromeOptions()

# 更換User-Agent
options.add_argument('--user-agent=Opera/9.23 (X11; Linux x86_64; U; en)')

# 實例化帶有配置對象的driver對象
driver = webdriver.Chrome(chrome_options=options)
複製代碼

安利:在線查看 User-Agent 小工具 service.spiritsoft.cn/ua.html

若是文章對您有所幫助, 請不吝點擊關注一下個人微信公衆號:FSA全棧行動, 這將是對我最大的激勵. 公衆號不只有Android技術, 還有iOS, Python等文章, 可能有你想要了解的技能知識點哦~

相關文章
相關標籤/搜索