前邊一段時間,曾經想作百度圖片的抓取,惋惜所有都是用javascript封裝的,看不到網址,後來不得不轉投其餘搜索引擎——大神Google(裏面的網址是能夠直接經過源代碼爬取的,只惋惜對一些敏感詞,搜索不到,這也使得爬取圖片大打折扣),後來在網上搜索了一下,才得知須要有一些瀏覽器渲染引擎,才能夠爬取一些含有AJAX、Javascript、CSS網頁,Python 用於網站抓取 登陸 發佈的模塊介紹(http://www.open-open.com/lib/view/1346029660489),裏面比較詳細的分析了Web Browser引擎,在此,不作過多的解釋,webkit確實是不錯的,也想過用這個,可是不能跨平臺,暫時放棄,選擇了Selenium,可是在配置Selenium過程當中,遇到一些問題,見下:javascript
一、selenium-server-standalone-2.35.0.jar沒法下載,官網上面的連接老是找不到文件;php
二、安裝完selenium-2.35.0 python包後,仍是沒法應用html
首先聲明:個人安裝環境是Win7+python2.7,針對第一個問題,提供下面的網址:https://code.google.com/p/selenium/downloads/list,在這個裏面能夠找到最新的selenium-server的jar文件,至於python的selenium包,能夠再python的官網上找到,這裏提供一個網址:https://pypi.python.org/pypi/selenium/,至於第二個問題,在《Selenium with Python》(https://gist.github.com/daemianmack/1099713#selenium-with-python)中提到以下:java
You can download Python bindings for Selenium from the PyPI page for selenium package. It has a dependency on rdflib, version 3.1.x.python
You can also use easy_install or pip to install the bindings:git
easy_install seleniumgithub
or : pip install seleniumweb
大體意思是說selenium庫還依賴於另外一個庫rdflib,也確實如此,安裝這個庫以後,便可應用selenium,網址爲:https://pypi.python.org/pypi/rdflib 瀏覽器
總結步驟以下:python2.7
1. 下載selenium-2.35.0 python包:https://pypi.python.org/pypi/selenium,解壓,安裝,python setup.py install
2. 下載rdflib 包:https://pypi.python.org/pypi/rdflib,一樣,解壓,安裝,python setup.py install
3. 下載selenium-server-standalone.jar,(官網上的連接不能用,很鬱悶),後來找到一個連接:https://code.google.com/p/selenium/downloads/list
Java -jar selenium-server.jar來啓動Selenium Server端的服務,固然,須要有java支持,才能夠,須要安裝java的,這個應該好找。
下面就能夠試試你的selenium,是否可用了。
from selenium import webdriver,若是沒有報錯,那恭喜你,成功了。
下面提供幾個學習selenium的網址:
1. Selenium私房菜系列:http://www.cnblogs.com/hyddd/archive/2009/05/20/1473146.html
2. Selenium中文論壇:http://seleniumcn.cn/thread.php?fid=17
3. Selenium with Python: https://gist.github.com/daemianmack/1099713