Python+Selenium+Phantomjs數據抓取環境配置實踐

      之後估計要作數據挖掘方面的項目,如今卻連數據都不會爬,這怎麼能行? html

      先在知乎上面看到有高手說selenium能夠用來爬數據,而後進一步找到了 「數據抓取的藝術(一):Selenium+Phantomjs數據抓取環境配置」,照着作卻碰到了問題。 python

      Python用的是 ActivePython,裏面已經幫你把easy_install 和 pip 都裝好了,第一步Python的安裝沒有問題。 web

      可是第二步使用 pip install selenium 這一步卻怎麼也過不去了,多是校園網的問題,因此下載總是出問題。 測試

上官網下了selenium-2.33.0.tar.gz,解壓縮之後殊不知道放哪。。。 ui

      小白略感無奈,在網上找了半天,終於找到了該怎麼辦: spa

      第一種辦法是,把解壓目錄下的selenium文件夾(selenium-2.33.0\py\selenium)拷到 Python 安裝目錄下的 Lib\site-packages下就行了 .net

      第二種辦法是轉到解壓後的目錄下運行setup.py 文件,命令是 python setup.py install。而後命令行黑框就會輸出一大堆信息,結束之後,解壓的目錄下會多出兩個文件夾,另外 Lib\site-packages 下也會多出一個 selenium-2.33.0-py2.7.egg 文件夾(貌似還有一個隱藏的同名文件)。 命令行

      不知道兩種方法有沒有差異,可是心理上感受第二種好一點。(小白不懂,只是感受而已) unix

      接下來就是測試了,我前面找到的那篇博客是用百度作測試的,可是我一直測試不能經過,因此換了搜狗的主頁試了試,成功了。 code

      我新建的 test.py 代碼是:

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get('http://www.sogou.com/')
data = driver.find_element_by_id('sina').text
print data
driver.quit()

      效果如圖:


      總算是成功了,你們也能夠試試看。

(注:本文搬家自CSDN博客,原文寫做時間爲2013-06-26 19:40,已刪除。)

相關文章
相關標籤/搜索