Python+Selenium+Phantomjs數據抓取環境配置實踐

時間 2019-11-18

標籤 python+selenium+phantomjs python selenium phantomjs 數據抓取環境配置實踐欄目 Python 简体版

原文原文鏈接

之後估計要作數據挖掘方面的項目，如今卻連數據都不會爬，這怎麼能行？ html

先在知乎上面看到有高手說selenium能夠用來爬數據，而後進一步找到了「數據抓取的藝術（一）：Selenium+Phantomjs數據抓取環境配置」，照着作卻碰到了問題。 python

Python用的是 ActivePython，裏面已經幫你把easy_install 和 pip 都裝好了，第一步Python的安裝沒有問題。 web

可是第二步使用 pip install selenium 這一步卻怎麼也過不去了，多是校園網的問題，因此下載總是出問題。測試

上官網下了selenium-2.33.0.tar.gz，解壓縮之後殊不知道放哪。。。 ui

小白略感無奈，在網上找了半天，終於找到了該怎麼辦： spa

第一種辦法是，把解壓目錄下的selenium文件夾（selenium-2.33.0\py\selenium）拷到 Python 安裝目錄下的 Lib\site-packages下就行了 .net

第二種辦法是轉到解壓後的目錄下運行setup.py 文件，命令是 python setup.py install。而後命令行黑框就會輸出一大堆信息，結束之後，解壓的目錄下會多出兩個文件夾，另外 Lib\site-packages 下也會多出一個 selenium-2.33.0-py2.7.egg 文件夾（貌似還有一個隱藏的同名文件）。命令行

不知道兩種方法有沒有差異，可是心理上感受第二種好一點。（小白不懂，只是感受而已） unix

接下來就是測試了，我前面找到的那篇博客是用百度作測試的，可是我一直測試不能經過，因此換了搜狗的主頁試了試，成功了。 code

我新建的 test.py 代碼是：

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get('http://www.sogou.com/')
data = driver.find_element_by_id('sina').text
print data
driver.quit()

效果如圖：

總算是成功了，你們也能夠試試看。

（注：本文搬家自CSDN博客，原文寫做時間爲2013-06-26 19:40，已刪除。）