Python爬取javascript(js)動態網頁

時間 2020-07-27

原文原文鏈接

python有許多庫可讓咱們很方便地編寫網絡爬蟲，爬取某些頁面，得到有價值的信息！但許多時候，爬蟲取到的頁面僅僅是一個靜態的頁面，即網頁的源代碼，就像在瀏覽器上的「查看網頁源代碼」同樣。一些動態的東西如javascript腳本執行後所產生的信息，是抓取不到的，這裏暫且先給出這麼一些方案，可用於python爬取js執行後輸出的信息。java

1. 兩種基本的解決方案

1.1 用dryscrape庫動態抓取頁面

js腳本是經過瀏覽器來執行並返回信息的，因此，抓取js執行後的頁面，一個最直接的方式就是用python模擬瀏覽器的行爲。WebKit 是一個開源的瀏覽器引擎，python提供了許多庫能夠調用這個引擎，dryscrape即是其中之一，它調用webkit引擎來處理包含js等的網頁！python

1 import dryscrape 2 # 使用dryscrape庫 動態抓取頁面
3 def get_url_dynamic(url): 4     session_req=dryscrape.Session() 5     session_req.visit(url) #請求頁面
6     response=session_req.body() #網頁的文本
7     #print(response)
8     return response 9 get_text_line(get_url_dynamic(url)) #將輸出一條文本

這裏對於其他包含js的網頁也是適用的！雖然能夠知足抓取動態頁面的要求，但缺點仍是很明顯的：慢！太慢了，其實想想也合理，python調用 webkit請求頁面，並且等頁面加載完，載入js文件，讓js執行，將執行後的頁面返回，慢一點也是應該的！除外還有不少庫能夠調用 webkit：PythonWebkit，PyWebKitGit，Pygt（能夠用它寫個瀏覽器），pyjamas等等，據說它們也能夠實現相同的功能！git

1.2 selenium web測試框架

selenium是一個web測試框架，它容許調用本地的瀏覽器引擎發送網頁請求，因此，它一樣能夠實現抓取頁面的要求。
# 使用 selenium webdriver 可行，但會實時打開瀏覽器窗口github

1 def get_url_dynamic2(url): 2     driver=webdriver.Firefox() #調用本地的火狐瀏覽器，Chrom 甚至 Ie 也能夠的
3     driver.get(url) #請求頁面，會打開一個瀏覽器窗口
4     html_text=driver.page_source 5  driver.quit() 6     #print html_text
7     return html_text 8 get_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失爲一條臨時的解決方案！與selenium相似的框架還有一個windmill，感受稍複雜一些，就再也不贅述！web

2. selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝能夠直接使用pip install selenium。因爲如下緣由：chrome

1. selenium 3.x開始，webdriver/firefox/webdriver.py的__init__中，executable_path="geckodriver"；而2.x是executable_path="wires"
2. firefox 47以上版本，須要下載第三方driver，即geckodriver

還須要一些特殊操做：

1. 下載 geckodriverckod 地址： mozilla/geckodriver
2. 解壓後將geckodriverckod 存放至 /usr/local/bin/ 路徑下便可：sudo mv ～/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運行報錯：瀏覽器

driver = webdriver.chrome()網絡

TypeError: 'module' object is not callable

解決方案：瀏覽器的名稱須要大寫Chrome和Firefox，Ie

2. 經過

1 content = driver.find_element_by_class_name('content')

來定位元素時，該方法返回的是FirefoxWebElement，想要獲取包含的值時，能夠經過

1 value = content.text

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。