PhantomJS下載地址: http://phantomjs.org/download.htmlcss
from selenium import webdriver # 要想調用鍵盤按鍵操做須要引入keys包 from selenium.webdriver.common.keys import Keys # 調用環境變量指定的PhantomJS瀏覽器建立瀏覽器對象 device_path = r'I:\reptile_demo\phantomjs-2.1.1-windows\bin\phantomjs.exe' driver = webdriver.PhantomJS(executable_path=device_path) # 若是沒有在環境變量指定PhantomJS位置# driver = webdriver.PhantomJS(executable_path="./phantomjs")) # get方法會一直等到頁面被徹底加載,而後纔會繼續程序,一般測試會在這裏選擇 time.sleep(2) driver.get("http://www.baidu.com/") # 獲取頁面名爲 wrapper的id標籤的文本內容 data = driver.find_element_by_id("wrapper").text # 打印數據內容 print(data) # 打印頁面標題 "百度一下,你就知道 print(driver.title) # 生成當前頁面快照並保存 driver.save_screenshot("baidu.png") # id="kw"是百度搜索輸入框,輸入字符串"街拍" driver.find_element_by_id("kw").send_keys("街拍") # id="su"是百度搜索按鈕,click() 是模擬點擊 driver.find_element_by_id("su").click() # 獲取新的頁面快照 driver.save_screenshot("街拍.png") # 打印網頁渲染後的源代碼 print(driver.page_source) # 獲取當前頁面Cookie print(driver.get_cookies()) # ctrl+a 全選輸入框內容 driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a') # ctrl+x 剪切輸入框內容 driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x') # 輸入框從新輸入內容 driver.find_element_by_id("kw").send_keys("atguigu") # 模擬Enter回車鍵 driver.find_element_by_id("su").send_keys(Keys.RETURN) # 清除輸入框內容 driver.find_element_by_id("kw").clear() # 生成新的頁面快照 driver.save_screenshot("atguigu.png") # 獲取當前url print(driver.current_url) # 關閉當前頁面,若是隻有一個頁面,會關閉瀏覽器# driver.close() # 關閉瀏覽器 driver.quit()
find_element_by_id()
find_element_by_name()
find_element_by_class_name()
find_element_by_tag_name()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_xpath()
find_element_by_css_selector()
一、find_element_by_xxx找的是第一個符合條件的標籤,find_elements_by_xxx找的是全部符合條件的標籤。html
二、根據ID、CSS選擇器和XPath獲取,它們返回的結果徹底一致。web
三、另外,Selenium還提供了通用方法find_element()
,它須要傳入兩個參數:查找方式By
和值。實際上,它就是find_element_by_id()
這種方法的通用函數版本,好比find_element_by_id(id)
就等價於find_element(By.ID, id)
,兩者獲得的結果徹底一致。windows
from selenium import webdriver from time import sleep import time if __name__ == '__main__': url = 'https://movie.douban.com/typerank?type_name=%E6%81%90%E6%80%96&type=20&interval_id=100:90&action=' # 發起請求前,可讓url表示的頁面動態加載出更多的數據 path = r'I:\reptile_demo\phantomjs-2.1.1-windows\bin\phantomjs.exe' # 建立無界面的瀏覽器對象 bro = webdriver.PhantomJS(path) # 發起url請求 bro.get(url) time.sleep(3) # 截圖 bro.save_screenshot('1.png') # 執行js代碼(讓滾動條向下偏移n個像素(做用:動態加載了更多的電影信息)) js = 'window.scrollTo(0,document.body.scrollHeight)' bro.execute_script(js) # 該函數能夠執行一組字符串形式的js代碼 time.sleep(2) bro.execute_script(js) # 該函數能夠執行一組字符串形式的js代碼 time.sleep(2) bro.save_screenshot('2.png') time.sleep(2) # 使用爬蟲程序爬去當前url中的內容 html_source = bro.page_source # 該屬性能夠獲取當前瀏覽器的當前頁的源碼(html) with open('./source.html', 'w', encoding='utf-8') as fp: fp.write(html_source) bro.quit()