抖音數據採集教程,最全python庫selenium自動化使用
1、安裝selenium
pip install Selenium
2、初始化瀏覽器
- Chrome 是初始化谷歌瀏覽器
- Firefox 是初始化火狐瀏覽器
- Edge 是初始化IE瀏覽器
- PhantomJS 是一個無界面瀏覽器。
from selenium import webdriver
driver = webdriver.Chrome()
3、設置瀏覽器大小
- maximize_window 最大化窗口
- set_window_size 自定義窗口大小
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
4、訪問頁面
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
5、定位元素
定位一個元素 |
定位多個元素 |
解釋 |
find_element_by_id |
find_elements_by_id |
經過元素id定位 |
find_element_by_name |
find_elements_by_name |
經過元素name定位 |
find_element_by_xpath |
find_elements_by_xpath |
經過xpath表達式定位 |
find_element_by_link_text |
find_elements_by_link_tex |
經過完整超連接定位 |
find_element_by_partial_link_text |
find_elements_by_partial_link_text |
經過部分連接定位 |
find_element_by_tag_name |
find_elements_by_tag_name |
經過標籤訂位 |
find_element_by_class_name |
find_elements_by_class_name |
經過類名進行定位 |
find_elements_by_css_selector |
find_elements_by_css_selector |
經過css選擇器進行定位 |
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element_by_id('kw')
6、定位元素的另外一種寫法
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element(By.ID, 'kw')
7、元素交互
方法 |
解釋 |
click() |
點擊某個元素 |
send_keys(輸入的值) |
模擬輸入 |
clear() |
清除操做 |
submit() |
提交表單 |
get_attribute(name) |
獲取元素的屬性值 |
location |
獲取元素的位置 |
text |
獲取元素的文本值 |
size |
獲取元素的大小 |
id |
獲取元素的id值 |
tag_name |
獲取元素的標籤名 |
- 實例演示: ****在百度輸入框中輸入我是autofelix,並點擊搜索按鈕
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.find_element_by_id('kw').send_keys('我是autofelix')
driver.find_element_by_id('su').click()
8、執行js
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
js_sql = '''
document.getElementById('kw').value = '我是autofelix'
'''
driver.execute_script(js_sql)
9、Frame操做
- 網頁中frame的話,須要執行切入切出操做
- switch_to.from(子iframe的id名稱) 切入
- switch_to.parent_frame(父iframe的id名稱) 切出
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
//這個網址並無iframe,我臆測有,大家看看就行
driver.switch_to.frame('我臆測出來的iframe')
10、cookie的操做
方法 |
說明 |
delete_all_cookies() |
刪除當前頁面全部cookies |
get_cookie(name) |
獲取指定cookie值 |
get_cookies() |
獲取當前頁面全部cookies值 |
add_cookie() |
設置cookie值 |
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
driver.delete_all_cookies()
driver.add_cookie({'name': 'name', 'domain': '.baidu.com', 'value': 'autofelix'})
11、選項卡管理
方法 |
解釋 |
window_handles |
保存全部選項卡的元組 |
switch_to.window() |
切換選項卡 |
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.baidu.com')
driver.get('https://www.taobao.com')
driver.switch_to.window(driver.window_handles[0])
driver.switch_to.window(driver.window_handles[1])
12、鼠標事件
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 初始化谷歌瀏覽器
driver = webdriver.Chrome()
# 最大化窗口
driver.maximize_window()
# 打開頭條登錄網址
driver.get('https://sso.toutiao.com')
# 等待某個元素是否出現
WebDriverWait(self.driver, 10).until(
EC.text_to_be_present_in_element((By.XPATH, '//*[@id="mobile-code-get"]/span'), u'發送')
)
# 實例化鼠標操做
action = ActionChains(self.driver)
# 按住滑塊
action.click_and_hold(self.driver.find_element_by_xpath('//*[@id="captcha_container"]')).perform()
# 將滑塊移動x的距離
action.move_by_offset(xoffset=x, yoffset=0).perform()
# 釋放滑塊
action.release().perform()
十3、等待
- 隱氏等待
- 若是到必定時間,指定的元素尚未出現,進程不會阻塞,可是到指定時間尚未找到,就會拋出異常
from selenium import webdriver
driver = webdriver.Chrome()
driver.implicitly_wait(10)
driver.get('https://www.baidu.com')
- 顯示等待
- 若是在必定時間內,指定的元素沒有出現,進程會阻塞在這裏,若是到指定時間尚未找到,就會拋出異常
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Chrome()
driver.implicitly_wait(10)
driver.get('https://www.baidu.com')
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, 'kw'))
)
十4、前進、後退和刷新
- back 後退
- forward 前進
- refresh 刷新瀏覽器
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.get('https://www.taobao.com')
driver.get('https://www.jd.com')
driver.back()
driver.forward()
driver.refresh()
十5、關閉瀏覽器
- close 關閉當前標籤頁
- quit 關閉整個瀏覽器
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
//打開百度頁面後,關閉整個瀏覽器
driver.quit()
抖音,快手,小紅書數據採集接口,文檔地址: TiToDataweb