轉自:自由爸爸,iceblue iceblue,王陽陽javascript
詳細內容請參考:Selenium-Python中文文檔html
python有許多庫可讓咱們很方便地編寫網絡爬蟲,爬取某些頁面,得到有價值的信息!但許多時候,爬蟲取到的頁面僅僅是一個靜態的頁面,即網頁 的源代碼,就像在瀏覽器上的「查看網頁源代碼」同樣。一些動態的東西如javascript腳本執行後所產生的信息,是抓取不到的,這裏暫且先給出這麼一 些方案,可用於python爬取js執行後輸出的信息。java
js腳本是經過瀏覽器來執行並返回信息的,因此,抓取js執行後的頁面,一個最直接的方式就是用python模擬瀏覽器的行爲。WebKit 是一個開源的瀏覽器引擎,python提供了許多庫能夠調用這個引擎,dryscrape即是其中之一,它調用webkit引擎來處理包含js等的網頁!python
1 import dryscrape 2 # 使用dryscrape庫 動態抓取頁面 3 def get_url_dynamic(url): 4 session_req=dryscrape.Session() 5 session_req.visit(url) #請求頁面 6 response=session_req.body() #網頁的文本 7 #print(response) 8 return response 9 get_text_line(get_url_dynamic(url)) #將輸出一條文本
這裏對於其他包含js的網頁也是適用的!雖然能夠知足抓取動態頁面的要求,但缺點仍是很明顯的:慢!太慢了,其實想想也合理,python調用 webkit請求頁面,並且等頁面加載完,載入js文件,讓js執行,將執行後的頁面返回,慢一點也是應該的!除外還有不少庫能夠調用 webkit:PythonWebkit,PyWebKitGit,Pygt(能夠用它寫個瀏覽器),pyjamas等等,據說它們也能夠實現相同的功 能!git
selenium是一個web測試框架,它容許調用本地的瀏覽器引擎發送網頁請求,因此,它一樣能夠實現抓取頁面的要求。
# 使用 selenium webdriver 可行,但會實時打開瀏覽器窗口github
1 def get_url_dynamic2(url): 2 driver=webdriver.Firefox() #調用本地的火狐瀏覽器,Chrom 甚至 Ie 也能夠的 3 driver.get(url) #請求頁面,會打開一個瀏覽器窗口 4 html_text=driver.page_source 5 driver.quit() 6 #print html_text 7 return html_text 8 get_text_line(get_url_dynamic2(url)) #將輸出一條文本
這也不失爲一條臨時的解決方案!與selenium相似的框架還有一個windmill,感受稍複雜一些,就再也不贅述!web
在Ubuntu上安裝能夠直接使用pip install selenium。因爲如下緣由:chrome
1. 運行報錯:瀏覽器
driver = webdriver.chrome()網絡
TypeError: 'module' object is not callable
解決方案:瀏覽器的名稱須要大寫Chrome和Firefox,Ie
2. 經過
1 content = driver.find_element_by_class_name('content')
來定位元素時,該方法返回的是FirefoxWebElement,想要獲取包含的值時,能夠經過
1 value = content.text