涉及到JavaScript渲染的頁面卻不能抓取,因此採用Web自動化測試工具Selenium,無界面瀏覽器PhantomJS來抓取JavaScript渲染的頁面,帶咱們熟悉使用後,爬蟲技能將大大提高。 Selenium是一個用於Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操做同樣。支持的瀏覽器包括IE、Mozilla Firefox、Chrome等。 Phantom JS是一個服務器端的 JavaScript API 的 WebKit。其支持各類Web標準: DOM 處理, CSS 選擇器, JSON, Canvas, 和 SVG。 Selenium支持多種語言開發,好比 Java,Python, C,Ruby等 首先安裝 Python 的 Selenium 庫,再安裝好 PhantomJS,就能夠實現 Python+Selenium+PhantomJS 的無縫對接了嘛!PhantomJS 用來渲染解析JS,Selenium 用來驅動PhantomJS以及與 Python 的對接,Python 進行網頁後期的處理,完美的三劍客!html
PhantomJS下載:http://phantomjs.org/download.htmlweb
代碼以下:瀏覽器
from selenium import webdriver driver = webdriver.PhantomJS() driver.get('http://wenshu.court.gov.cn/list/list/') data = driver.page_source print data driver.quit()