Python selenium+phantomjs的js動態爬取

Selenium是一個用於Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操做同樣。支持的瀏覽器包括IE、Mozilla Firefox、Chrome等。
Phantom JS是一個服務器端的 JavaScript API 的 WebKit。其支持各類Web標準: DOM 處理, CSS 選擇器, JSON, Canvas, 和 SVG。html

 

基於js動態加載內容爬取的另外一種方法——模擬瀏覽器web

安裝過程略。瀏覽器

 

下面寫上最簡單基礎的服務器

from selenium import webdriver


driver = webdriver.PhantomJS()

driver.get('http://www.baidu.com/')



print driver.title
driver.quit()

輸出結果:工具

 

這樣最基本的實現能解決了。測試

 

參考ui

http://www.cnblogs.com/front-Thinking/p/4321720.html編碼

http://blog.csdn.net/qinglu000/article/details/52240508atom

——————url

遇到問題————phantomjs沒有輸出,輸出看不到內容

fromseleniumimportwebdriver  
    
importsys  
reload(sys)  
sys.setdefaultencoding('utf-8')  
    
driver=webdriver.PhantomJS() #這要可能須要制定phatomjs可執行文件的位置  
driver.get("http://www.ip.cn/125.95.26.81")  
#print driver.current_url  
#print driver.page_source  
printdriver.find_element_by_id('result').text.split('\n')[0].split('來自:')[1]  
driver.quit  

就是像開始由於編碼問題加入這幾行代碼,輸出看不到內容,一直覺得哪裏出錯了,一番折騰刪除後正常顯示。

importsys  
reload(sys)  
sys.setdefaultencoding('utf-8') 
相關文章
相關標籤/搜索