Selenium與PhantomJS【轉】

時間 2019-11-09

原文原文鏈接

爬蟲(Spider)，反爬蟲(Anti-Spider)，反反爬蟲(Anti-Anti-Spider) 之間恢宏壯闊的鬥爭...

Day 1

小莫想要某站上全部的電影，寫了標準的爬蟲(基於HttpClient庫)，不斷地遍歷某站的電影列表頁面，根據 Html 分析電影名字存進本身的數據庫。

這個站點的運維小黎發現某個時間段請求量陡增，分析日誌發現都是 IP(xxx.xxx.xxx.xxx)這個用戶，而且 user-agent 仍是 Python-urllib/2.7 ，基於這兩點判斷非人類後直接在服務器上封殺。

Day 2

小莫電影只爬了一半，因而也針對性的變換了下策略：1. user-agent 模仿百度("Baiduspider...")，2. IP每爬半個小時就換一個IP代理。

小黎也發現了對應的變化，因而在服務器上設置了一個頻率限制，每分鐘超過120次請求的再屏蔽IP。同時考慮到百度家的爬蟲有可能會被誤傷，想一想市場部門每個月幾十萬的投放，因而寫了個腳本，經過 hostname 檢查下這個 ip 是否是真的百度家的，對這些 ip 設置一個白名單。

Day 3

小莫發現了新的限制後，想着我也不急着要這些數據，留給服務器慢慢爬吧，因而修改了代碼，隨機1-3秒爬一次，爬10次休息10秒，天天只在8-12，18-20點爬，隔幾天還休息一下。

小黎看着新的日誌頭都大了，再設定規則不當心會誤傷真實用戶，因而準備換了一個思路，當3個小時的總請求超過50次的時候彈出一個驗證碼彈框，沒有準確正確輸入的話就把 IP 記錄進黑名單。

Day 4

小莫看到驗證碼有些傻臉了，不過也不是沒有辦法，先去學習了圖像識別（關鍵詞 PIL，tesseract），再對驗證碼進行了二值化，分詞，模式訓練以後，總之最後識別了小黎的驗證碼（關於驗證碼，驗證碼的識別，驗證碼的反識別也是一個恢弘壯麗的鬥爭史...），以後爬蟲又跑了起來。

小黎是個不折不撓的好同窗，看到驗證碼被攻破後，和開發同窗商量了變化下開發模式，數據並再也不直接渲染，而是由前端同窗異步獲取，而且經過 JavaScript 的加密庫生成動態的 token，同時加密庫再進行混淆（比較重要的步驟的確有網站這樣作，參見淘寶和微博的登錄流程）。

Day 5

混淆過的加密庫就沒有辦法了麼？固然不是，能夠慢慢調試，找到加密原理，不太小莫不許備用這麼耗時耗力的方法，他放棄了基於 HttpClient的爬蟲，選擇了內置瀏覽器引擎的爬蟲(關鍵詞：PhantomJS，Selenium)，在瀏覽器引擎運行頁面，直接獲取了正確的結果，又一次拿到了對方的數據。

小黎：.....

爬蟲與發爬蟲的鬥爭還在繼續...

一般狀況下，在爬蟲與反爬蟲的對弈中，爬蟲必定會勝利。javascript

換言之，只要人類可以正常訪問的網頁，爬蟲在具有同等資源的狀況下就必定能夠抓取到。css

關於爬蟲部分一些建議：

儘可能減小請求次數，能抓列表頁就不抓詳情頁，減輕服務器壓力，程序員都是混口飯吃不容易。
不要只看 Web 網站，還有手機 App 和 H5，這樣的反爬蟲措施通常比較少。
實際應用時候，通常防守方作到根據 IP 限制頻次就結束了，除非很核心的數據，不會再進行更多的驗證，畢竟成本的問題會考慮到。
若是真的對性能要求很高，能夠考慮多線程(一些成熟的框架如 Scrapy都已支持)，甚至分佈式...

關於反爬蟲部分的一些建議：

這篇文章就夠了：攜程技術中心 - 攜程酒店研發部研發經理崔廣宇 <爬蟲與反爬蟲> 技術分享html

動態HTML介紹

JavaScript

JavaScript 是網絡上最經常使用也是支持者最多的客戶端腳本語言。它能夠收集用戶的跟蹤數據,不須要重載頁面直接提交表單，在頁面嵌入多媒體文件，甚至運行網頁遊戲。前端

咱們能夠在網頁源代碼的<scripy>標籤裏看到，好比：java

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <script type="text/javascript" src="https://statics.huxiu.com/w/mini/static_2015/js/sea.js?v=201601150944"></script>

jQuery

jQuery 是一個十分常見的庫,70% 最流行的網站(約 200 萬)和約 30% 的其餘網站(約 2 億)都在使用。一個網站使用 jQuery 的特徵,就是源代碼裏包含了 jQuery 入口,好比:python

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <script type="text/javascript" src="https://statics.huxiu.com/w/mini/static_2015/js/jquery-1.11.1.min.js?v=201512181512"></script>

若是你在一個網站上看到了 jQuery，那麼採集這個網站數據的時候要格外當心。jQuery 可以動態地建立 HTML 內容,只有在 JavaScript 代碼執行以後纔會顯示。若是你用傳統的方法採集頁面內容,就只能得到 JavaScript 代碼執行以前頁面上的內容。jquery

Ajax

咱們與網站服務器通訊的惟一方式，就是發出 HTTP 請求獲取新頁面。若是提交表單以後，或從服務器獲取信息以後，網站的頁面不須要從新刷新，那麼你訪問的網站就在用Ajax 技術。程序員

Ajax 其實並非一門語言,而是用來完成網絡任務(能夠認爲它與網絡數據採集差很少)的一系列技術。Ajax 全稱是 Asynchronous JavaScript and XML(異步 JavaScript 和 XML)，網站不須要使用單獨的頁面請求就能夠和網絡服務器進行交互 (收發信息)。web

DHTML

Ajax 同樣，動態 HTML(Dynamic HTML, DHTML)也是一系列用於解決網絡問題的技術集合。DHTML 是用客戶端語言改變頁面的 HTML 元素(HTML、CSS，或者兩者皆被改變)。好比頁面上的按鈕只有當用戶移動鼠標以後纔出現,背景色可能每次點擊都會改變，或者用一個 Ajax 請求觸發頁面加載一段新內容，網頁是否屬於DHTML，關鍵要看有沒有用 JavaScript 控制 HTML 和 CSS 元素。數據庫

那麼，如何搞定？

那些使用了 Ajax 或 DHTML 技術改變 / 加載內容的頁面，可能有一些採集手段。可是用 Python 解決這個問題只有兩種途徑:

直接從 JavaScript 代碼裏採集內容（費時費力）
用 Python 的第三方庫運行 JavaScript，直接採集你在瀏覽器裏看到的頁面（這個能夠有）。

Selenium 與 PhantomJS

Selenium簡介

Selenium是一個Web的自動化測試工具，最初是爲網站自動化測試而開發的，類型像咱們玩遊戲用的按鍵精靈，能夠按指定的命令自動操做，不一樣是Selenium 能夠直接運行在瀏覽器上，它支持全部主流的瀏覽器（包括PhantomJS這些無界面的瀏覽器）。

Selenium 能夠根據咱們的指令，讓瀏覽器自動加載頁面，獲取須要的數據，甚至頁面截屏，或者判斷網站上某些動做是否發生。

Selenium 本身不帶瀏覽器，不支持瀏覽器的功能，它須要與第三方瀏覽器結合在一塊兒才能使用。可是咱們有時候須要讓它內嵌在代碼中運行，因此咱們能夠用一個叫 PhantomJS 的工具代替真實的瀏覽器。

能夠從 PyPI 網站下載 Selenium庫https://pypi.python.org/simple/selenium ，也能夠用第三方管理器 pip用命令安裝：pip install selenium

Selenium 官方參考文檔：http://selenium-python.readthedocs.io/index.html

PhantomJS簡介

PhantomJS 是一個基於Webkit的「無界面」(headless)瀏覽器，它會把網站加載到內存並執行頁面上的 JavaScript，由於不會展現圖形界面，因此運行起來比完整的瀏覽器要高效。

若是咱們把 Selenium 和 PhantomJS 結合在一塊兒，就能夠運行一個很是強大的網絡爬蟲了，這個爬蟲能夠處理 JavaScrip、Cookie、headers，以及任何咱們真實用戶須要作的事情。

注意：PhantomJS 只能從它的官方網站http://phantomjs.org/download.html) 下載。由於 PhantomJS 是一個功能完善(雖然無界面)的瀏覽器而非一個 Python 庫，因此它不須要像 Python 的其餘庫同樣安裝，但咱們能夠經過Selenium調用PhantomJS來直接使用。

PhantomJS 官方參考文檔：http://phantomjs.org/documentation

快速入門

Selenium 庫裏有個叫 WebDriver 的 API。WebDriver 有點兒像能夠加載網站的瀏覽器，可是它也能夠像 BeautifulSoup 或者其餘 Selector 對象同樣用來查找頁面元素，與頁面上的元素進行交互 (發送文本、點擊等)，以及執行其餘動做來運行網絡爬蟲。

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         # IPython2 測試代碼 
         
         
          
          
            2 
           
          
          
         
         
          
          
            3 
           
          
         # 導入 webdriver 
         
         
          
          
            4 
           
          
         from selenium import webdriver 
         
         
          
          
            5 
           
          
          
         
         
          
          
            6 
           
          
         # 要想調用鍵盤按鍵操做須要引入keys包 
         
         
          
          
            7 
           
          
         from selenium.webdriver.common.keys import Keys 
         
         
          
          
            8 
           
          
          
         
         
          
          
            9 
           
          
         # 調用環境變量指定的PhantomJS瀏覽器建立瀏覽器對象 
         
         
          
          
            10 
           
          
         driver = webdriver.PhantomJS() 
         
         
          
          
            11 
           
          
          
         
         
          
          
            12 
           
          
         # 若是沒有在環境變量指定PhantomJS位置 
         
         
          
          
            13 
           
          
         # driver = webdriver.PhantomJS(executable_path="./phantomjs")) 
         
         
          
          
            14 
           
          
          
         
         
          
          
            15 
           
          
         # get方法會一直等到頁面被徹底加載，而後纔會繼續程序，一般測試會在這裏選擇 time.sleep(2) 
         
         
          
          
            16 
           
          
         driver.get("http://www.baidu.com/") 
         
         
          
          
            17 
           
          
          
         
         
          
          
            18 
           
          
         # 獲取頁面名爲 wrapper的id標籤的文本內容 
         
         
          
          
            19 
           
          
         data = driver.find_element_by_id("wrapper").text 
         
         
          
          
            20 
           
          
          
         
         
          
          
            21 
           
          
         # 打印數據內容 
         
         
          
          
            22 
           
          
         print data 
         
         
          
          
            23 
           
          
          
         
         
          
          
            24 
           
          
         # 打印頁面標題 "百度一下，你就知道" 
         
         
          
          
            25 
           
          
         print driver.title 
         
         
          
          
            26 
           
          
          
         
         
          
          
            27 
           
          
         # 生成當前頁面快照並保存 
         
         
          
          
            28 
           
          
         driver.save_screenshot("baidu.png") 
         
         
          
          
            29 
           
          
          
         
         
          
          
            30 
           
          
         # id="kw"是百度搜索輸入框，輸入字符串"長城" 
         
         
          
          
            31 
           
          
         driver.find_element_by_id("kw").send_keys(u"長城") 
         
         
          
          
            32 
           
          
          
         
         
          
          
            33 
           
          
         # id="su"是百度搜索按鈕，click() 是模擬點擊 
         
         
          
          
            34 
           
          
         driver.find_element_by_id("su").click() 
         
         
          
          
            35 
           
          
          
         
         
          
          
            36 
           
          
         # 獲取新的頁面快照 
         
         
          
          
            37 
           
          
         driver.save_screenshot("長城.png") 
         
         
          
          
            38 
           
          
          
         
         
          
          
            39 
           
          
         # 打印網頁渲染後的源代碼 
         
         
          
          
            40 
           
          
         print driver.page_source 
         
         
          
          
            41 
           
          
          
         
         
          
          
            42 
           
          
         # 獲取當前頁面Cookie 
         
         
          
          
            43 
           
          
         print driver.get_cookies() 
         
         
          
          
            44 
           
          
          
         
         
          
          
            45 
           
          
         # ctrl+a 全選輸入框內容 
         
         
          
          
            46 
           
          
         driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a') 
         
         
          
          
            47 
           
          
          
         
         
          
          
            48 
           
          
         # ctrl+x 剪切輸入框內容 
         
         
          
          
            49 
           
          
         driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x') 
         
         
          
          
            50 
           
          
          
         
         
          
          
            51 
           
          
         # 輸入框從新輸入內容 
         
         
          
          
            52 
           
          
         driver.find_element_by_id("kw").send_keys("itcast") 
         
         
          
          
            53 
           
          
          
         
         
          
          
            54 
           
          
         # 模擬Enter回車鍵 
         
         
          
          
            55 
           
          
         driver.find_element_by_id("su").send_keys(Keys.RETURN) 
         
         
          
          
            56 
           
          
          
         
         
          
          
            57 
           
          
         # 清除輸入框內容 
         
         
          
          
            58 
           
          
         driver.find_element_by_id("kw").clear() 
         
         
          
          
            59 
           
          
          
         
         
          
          
            60 
           
          
         # 生成新的頁面快照 
         
         
          
          
            61 
           
          
         driver.save_screenshot("itcast.png") 
         
         
          
          
            62 
           
          
          
         
         
          
          
            63 
           
          
         # 獲取當前url 
         
         
          
          
            64 
           
          
         print driver.current_url 
         
         
          
          
            65 
           
          
          
         
         
          
          
            66 
           
          
         # 關閉當前頁面，若是隻有一個頁面，會關閉瀏覽器 
         
         
          
          
            67 
           
          
         # driver.close() 
         
         
          
          
            68 
           
          
          
         
         
          
          
            69 
           
          
         # 關閉瀏覽器 
         
         
          
          
            70 
           
          
         driver.quit()

頁面操做

Selenium 的 WebDriver提供了各類方法來尋找元素，假設下面有一個表單輸入框：

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         <input type="text" name="user-name" id="passwd-id" />

那麼：

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         # 獲取id標籤值 
         
         
          
          
            2 
           
          
         element = driver.find_element_by_id("passwd-id") 
         
         
          
          
            3 
           
          
         # 獲取name標籤值 
         
         
          
          
            4 
           
          
         element = driver.find_element_by_name("user-name") 
         
         
          
          
            5 
           
          
         # 獲取標籤名值 
         
         
          
          
            6 
           
          
         element = driver.find_elements_by_tag_name("input") 
         
         
          
          
            7 
           
          
         # 也能夠經過XPath來匹配 
         
         
          
          
            8 
           
          
         element = driver.find_element_by_xpath("//input[@id='passwd-id']")

定位UI元素 (WebElements)

關於元素的選取，有以下的API 單個元素選取

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         find_element_by_id 
         
         
          
          
            2 
           
          
         find_elements_by_name 
         
         
          
          
            3 
           
          
         find_elements_by_xpath 
         
         
          
          
            4 
           
          
         find_elements_by_link_text 
         
         
          
          
            5 
           
          
         find_elements_by_partial_link_text 
         
         
          
          
            6 
           
          
         find_elements_by_tag_name 
         
         
          
          
            7 
           
          
         find_elements_by_class_name 
         
         
          
          
            8 
           
          
         find_elements_by_css_selector

By ID

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <div id="coolestWidgetEvah">...</div>

實現

     
     
     
     
      
      
      
       
        
      
      
      
      
       
        
         
          
           
            
             
              
             
            
            
            
            
             
              
              
              
              
                1 
               
              
             element = driver.find_element_by_id("coolestWidgetEvah") 
             
             
              
              
                2 
               
              
             ------------------------ or ------------------------- 
             
             
              
              
                3 
               
              
             from selenium.webdriver.common.by import By 
             
             
              
              
                4 
               
              
             element = driver.find_element(by=By.ID, value="coolestWidgetEvah")

By Class Name

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <div class="cheese"><span>Cheddar</span></div><div class="cheese"><span>Gouda</span></div>

實現

     
     
     
     
      
      
      
       
        
      
      
      
      
       
        
         
          
           
            
             
              
             
            
            
            
            
             
              
              
              
              
                1 
               
              
             cheeses = driver.find_elements_by_class_name("cheese") 
             
             
              
              
                2 
               
              
             ------------------------ or ------------------------- 
             
             
              
              
                3 
               
              
             from selenium.webdriver.common.by import By 
             
             
              
              
                4 
               
              
             cheeses = driver.find_elements(By.CLASS_NAME, "cheese")

By Tag Name

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <iframe src="..."></iframe>

實現

     
     
     
     
      
      
      
       
        
      
      
      
      
       
        
         
          
           
            
             
              
             
            
            
            
            
             
              
              
              
              
                1 
               
              
             frame = driver.find_element_by_tag_name("iframe") 
             
             
              
              
                2 
               
              
             ------------------------ or ------------------------- 
             
             
              
              
                3 
               
              
             from selenium.webdriver.common.by import By 
             
             
              
              
                4 
               
              
             frame = driver.find_element(By.TAG_NAME, "iframe")

By Name

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <input name="cheese" type="text"/>

實現

     
     
     
     
      
      
      
       
        
      
      
      
      
       
        
         
          
           
            
             
              
             
            
            
            
            
             
              
              
              
              
                1 
               
              
             cheese = driver.find_element_by_name("cheese") 
             
             
              
              
                2 
               
              
             ------------------------ or ------------------------- 
             
             
              
              
                3 
               
              
             from selenium.webdriver.common.by import By 
             
             
              
              
                4 
               
              
             cheese = driver.find_element(By.NAME, "cheese")

By Link Text

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <a href="http://www.google.com/search?q=cheese">cheese</a>

實現

     
     
     
     
      
      
      
       
        
      
      
      
      
       
        
         
          
           
            
             
              
             
            
            
            
            
             
              
              
              
              
                1 
               
              
             cheese = driver.find_element_by_link_text("cheese") 
             
             
              
              
                2 
               
              
             ------------------------ or ------------------------- 
             
             
              
              
                3 
               
              
             from selenium.webdriver.common.by import By 
             
             
              
              
                4 
               
              
             cheese = driver.find_element(By.LINK_TEXT, "cheese")

By Partial Link Text

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <a href="http://www.google.com/search?q=cheese">search for cheese</a>>

實現

     
     
     
     
      
      
      
       
        
      
      
      
      
       
        
         
          
           
            
             
              
             
            
            
            
            
             
              
              
              
              
                1 
               
              
             cheese = driver.find_element_by_partial_link_text("cheese") 
             
             
              
              
                2 
               
              
             ------------------------ or ------------------------- 
             
             
              
              
                3 
               
              
             from selenium.webdriver.common.by import By 
             
             
              
              
                4 
               
              
             cheese = driver.find_element(By.PARTIAL_LINK_TEXT, "cheese")

By CSS

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <div id="food"><span class="dairy">milk</span><span class="dairy aged">cheese</span></div>

實現

     
     
     
     
      
      
      
       
        
      
      
      
      
       
        
         
          
           
            
             
              
             
            
            
            
            
             
              
              
              
              
                1 
               
              
             cheese = driver.find_element_by_css_selector("#food span.dairy.aged") 
             
             
              
              
                2 
               
              
             ------------------------ or ------------------------- 
             
             
              
              
                3 
               
              
             from selenium.webdriver.common.by import By 
             
             
              
              
                4 
               
              
             cheese = driver.find_element(By.CSS_SELECTOR, "#food span.dairy.aged")

By XPath

   
   
   
   
    
    
    
     
      
    
    
    
    
     
      
       
        
         
          
           
            
           
          
          
          
          
           
            
            
            
            
              1 
             
            
           <input type="text" name="example" /> 
           
           
            
            
              2 
             
            
           <INPUT type="text" name="other" />

實現

     
     
     
     
      
      
      
       
        
      
      
      
      
       
        
         
          
           
            
             
              
             
            
            
            
            
             
              
              
              
              
                1 
               
              
             inputs = driver.find_elements_by_xpath("//input") 
             
             
              
              
                2 
               
              
             ------------------------ or ------------------------- 
             
             
              
              
                3 
               
              
             from selenium.webdriver.common.by import By 
             
             
              
              
                4 
               
              
             inputs = driver.find_elements(By.XPATH, "//input")

鼠標動做鏈

有些時候，咱們須要再頁面上模擬一些鼠標操做，好比雙擊、右擊、拖拽甚至按住不動等，咱們能夠經過導入 ActionChains 類來作到：

示例：

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         #導入 ActionChains 類 
         
         
          
          
            2 
           
          
         from selenium.webdriver import ActionChains 
         
         
          
          
            3 
           
          
          
         
         
          
          
            4 
           
          
         # 鼠標移動到 ac 位置 
         
         
          
          
            5 
           
          
         ac = driver.find_element_by_xpath('element') 
         
         
          
          
            6 
           
          
         ActionChains(driver).move_to_element(ac).perform() 
         
         
          
          
            7 
           
          
          
         
         
          
          
            8 
           
          
          
         
         
          
          
            9 
           
          
         # 在 ac 位置單擊 
         
         
          
          
            10 
           
          
         ac = driver.find_element_by_xpath("elementA") 
         
         
          
          
            11 
           
          
         ActionChains(driver).move_to_element(ac).click(ac).perform() 
         
         
          
          
            12 
           
          
          
         
         
          
          
            13 
           
          
         # 在 ac 位置雙擊 
         
         
          
          
            14 
           
          
         ac = driver.find_element_by_xpath("elementB") 
         
         
          
          
            15 
           
          
         ActionChains(driver).move_to_element(ac).double_click(ac).perform() 
         
         
          
          
            16 
           
          
          
         
         
          
          
            17 
           
          
         # 在 ac 位置右擊 
         
         
          
          
            18 
           
          
         ac = driver.find_element_by_xpath("elementC") 
         
         
          
          
            19 
           
          
         ActionChains(driver).move_to_element(ac).context_click(ac).perform() 
         
         
          
          
            20 
           
          
          
         
         
          
          
            21 
           
          
         # 在 ac 位置左鍵單擊hold住 
         
         
          
          
            22 
           
          
         ac = driver.find_element_by_xpath('elementF') 
         
         
          
          
            23 
           
          
         ActionChains(driver).move_to_element(ac).click_and_hold(ac).perform() 
         
         
          
          
            24 
           
          
          
         
         
          
          
            25 
           
          
         # 將 ac1 拖拽到 ac2 位置 
         
         
          
          
            26 
           
          
         ac1 = driver.find_element_by_xpath('elementD') 
         
         
          
          
            27 
           
          
         ac2 = driver.find_element_by_xpath('elementE') 
         
         
          
          
            28 
           
          
         ActionChains(driver).drag_and_drop(ac1, ac2).perform()

填充表單

咱們已經知道了怎樣向文本框中輸入文字，可是有時候咱們會碰到<select> </select>標籤的下拉框。直接點擊下拉框中的選項不必定可行。

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         <select id="status" class="form-control valid" onchange="" name="status"> 
         
         
          
          
            2 
           
          
             <option value=""></option> 
         
         
          
          
            3 
           
          
             <option value="0">未審覈</option> 
         
         
          
          
            4 
           
          
             <option value="1">初審經過</option> 
         
         
          
          
            5 
           
          
             <option value="2">複審經過</option> 
         
         
          
          
            6 
           
          
             <option value="3">審覈不經過</option> 
         
         
          
          
            7 
           
          
         </select>

Selenium專門提供了Select類來處理下拉框。其實 WebDriver 中提供了一個叫 Select 的方法，能夠幫助咱們完成這些事情：

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         # 導入 Select 類 
         
         
          
          
            2 
           
          
         from selenium.webdriver.support.ui import Select 
         
         
          
          
            3 
           
          
          
         
         
          
          
            4 
           
          
         # 找到 name 的選項卡 
         
         
          
          
            5 
           
          
         select = Select(driver.find_element_by_name('status')) 
         
         
          
          
            6 
           
          
          
         
         
          
          
            7 
           
          
         #  
         
         
          
          
            8 
           
          
         select.select_by_index(1) 
         
         
          
          
            9 
           
          
         select.select_by_value("0") 
         
         
          
          
            10 
           
          
         select.select_by_visible_text(u"未審覈")

以上是三種選擇下拉框的方式，它能夠根據索引來選擇，能夠根據值來選擇，能夠根據文字來選擇。注意：

index 索引從 0 開始

value是option標籤的一個屬性值，並非顯示在下拉框中的值

visible_text是在option標籤文本的值，是顯示在下拉框的值

所有取消選擇怎麼辦呢？很簡單:

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         select.deselect_all()

彈窗處理

當你觸發了某個事件以後，頁面出現了彈窗提示，處理這個提示或者獲取提示信息方法以下：

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         alert = driver.switch_to_alert()

頁面切換

一個瀏覽器確定會有不少窗口，因此咱們確定要有方法來實現窗口的切換。切換窗口的方法以下：

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         driver.switch_to.window("this is window name")

也可使用 window_handles 方法來獲取每一個窗口的操做對象。例如：

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         for handle in driver.window_handles: 
         
         
          
          
            2 
           
          
             driver.switch_to_window(handle)

頁面前進和後退

操做頁面的前進和後退功能：

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         driver.forward()     #前進 
         
         
          
          
            2 
           
          
         driver.back()        # 後退

Cookies

獲取頁面每一個Cookies值，用法以下

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         for cookie in driver.get_cookies(): 
         
         
          
          
            2 
           
          
             print "%s -> %s" % (cookie['name'], cookie['value'])

刪除Cookies，用法以下

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         # By name 
         
         
          
          
            2 
           
          
         driver.delete_cookie("CookieName") 
         
         
          
          
            3 
           
          
          
         
         
          
          
            4 
           
          
         # all 
         
         
          
          
            5 
           
          
         driver.delete_all_cookies()

頁面等待

注意：這是很是重要的一部分！！

如今的網頁愈來愈多采用了 Ajax 技術，這樣程序便不能肯定什麼時候某個元素徹底加載出來了。若是實際頁面等待時間過長致使某個dom元素還沒出來，可是你的代碼直接使用了這個WebElement，那麼就會拋出NullPointer的異常。

爲了不這種元素定位困難並且會提升產生 ElementNotVisibleException 的機率。因此 Selenium 提供了兩種等待方式，一種是隱式等待，一種是顯式等待。

隱式等待是等待特定的時間，顯式等待是指定某一條件直到這個條件成立時繼續執行。

顯式等待

顯式等待指定某個條件，而後設置最長等待時間。若是在這個時間尚未找到元素，那麼便會拋出異常了。

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         from selenium import webdriver 
         
         
          
          
            2 
           
          
         from selenium.webdriver.common.by import By 
         
         
          
          
            3 
           
          
         # WebDriverWait 庫，負責循環等待 
         
         
          
          
            4 
           
          
         from selenium.webdriver.support.ui import WebDriverWait 
         
         
          
          
            5 
           
          
         # expected_conditions 類，負責條件出發 
         
         
          
          
            6 
           
          
         from selenium.webdriver.support import expected_conditions as EC 
         
         
          
          
            7 
           
          
          
         
         
          
          
            8 
           
          
         driver = webdriver.Chrome() 
         
         
          
          
            9 
           
          
         driver.get("http://www.xxxxx.com/loading") 
         
         
          
          
            10 
           
          
         try: 
         
         
          
          
            11 
           
          
             # 頁面一直循環，直到 id="myDynamicElement" 出現 
         
         
          
          
            12 
           
          
             element = WebDriverWait(driver, 10).until( 
         
         
          
          
            13 
           
          
                 EC.presence_of_element_located((By.ID, "myDynamicElement")) 
         
         
          
          
            14 
           
          
             ) 
         
         
          
          
            15 
           
          
         finally: 
         
         
          
          
            16 
           
          
             driver.quit()

若是不寫參數，程序默認會 0.5s 調用一次來查看元素是否已經生成，若是原本元素就是存在的，那麼會當即返回。

下面是一些內置的等待條件，你能夠直接調用這些條件，而不用本身寫某些等待條件了。

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         title_is 
         
         
          
          
            2 
           
          
         title_contains 
         
         
          
          
            3 
           
          
         presence_of_element_located 
         
         
          
          
            4 
           
          
         visibility_of_element_located 
         
         
          
          
            5 
           
          
         visibility_of 
         
         
          
          
            6 
           
          
         presence_of_all_elements_located 
         
         
          
          
            7 
           
          
         text_to_be_present_in_element 
         
         
          
          
            8 
           
          
         text_to_be_present_in_element_value 
         
         
          
          
            9 
           
          
         frame_to_be_available_and_switch_to_it 
         
         
          
          
            10 
           
          
         invisibility_of_element_located 
         
         
          
          
            11 
           
          
         element_to_be_clickable – it is Displayed and Enabled. 
         
         
          
          
            12 
           
          
         staleness_of 
         
         
          
          
            13 
           
          
         element_to_be_selected 
         
         
          
          
            14 
           
          
         element_located_to_be_selected 
         
         
          
          
            15 
           
          
         element_selection_state_to_be 
         
         
          
          
            16 
           
          
         element_located_selection_state_to_be 
         
         
          
          
            17 
           
          
         alert_is_present

隱式等待

隱式等待比較簡單，就是簡單地設置一個等待時間，單位爲秒。

 
 
 
 
  
  
  
   
    
  
  
  
  
   
    
     
      
       
        
         
          
         
        
        
        
        
         
          
          
          
          
            1 
           
          
         from selenium import webdriver 
         
         
          
          
            2 
           
          
          
         
         
          
          
            3 
           
          
         driver = webdriver.Chrome() 
         
         
          
          
            4 
           
          
         driver.implicitly_wait(10) # seconds 
         
         
          
          
            5 
           
          
         driver.get("http://www.xxxxx.com/loading") 
         
         
          
          
            6 
           
          
         myDynamicElement = driver.find_element_by_id("myDynamicElement")

固然若是不設置，默認等待時間爲0。

1. 爬蟲——Selenium與PhantomJS
2. selenium + phantomJs
3. selenium與phantomjs，爬蟲利器
4. Python爬蟲 Selenium與PhantomJS
5. Phantomjs與Selenium爬取圖片
6. 爬蟲--selenium，PhantomJS
7. Selenium+phantomjs 實例
8. Selenium和PhantomJS
9. selenium+PhantomJS+IP代理
10. 爬蟲-08-selenium & phantomjs
更多相關文章...
• Hibernate的級聯與反轉 - Hibernate教程
• XSLT - 轉換 - XSLT 教程
• Composer 安裝與使用
• Java Agent入門實戰（一）-Instrumentation介紹與使用

相關標籤/搜索

selenium+chrome+phantomjs

pip+phantomjs+selenium

selenium+phantomjs+ip

python+selenium+phantomjs

selenium+phantomjs+pyquery

phantomjs+selenium+pip

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。