Linux搭建Scrapy爬蟲集成開發環境

      1. 安裝Python

下載地址:http://www.python.org/, Python 有 Python 2 和 Python 3 兩個版本, 語法有些區別,ubuntu上自帶了python2.7.6,因此在 ubuntu上暫時不需額外安裝。html

 

      1. 安裝JAVA JDK

下載地址:http://www.oracle.com/technetwork/java/javase/downloads,下載與具體機器 對應的版本,我這裏因爲是ubuntu64位,因此下載了jdk-8u77-linux-x64.tar.gz前端

解壓:tar -zxvf jdk-8u77-linux-x64.tar.gzjava

進入到解壓的目錄,拷貝:cp -R jdk1.8.0_77/ /usr/local/python

配置環境變量:vi .bashrclinux

添加:ubuntu

export JAVA_HOME=/usr/local/jdk1.8.0_77bash

export JAVA_BIN=$JAVA_HOME/binoracle

export JAVA_LIB=$JAVA_HOME/libeclipse

export CLASSPATH=.:$JAVA_LIB/tools.jar:$JAVA_LIB/dt.jarpython2.7

export PATH=$JAVA_BIN:$PATH

使環境變量生效:source .bashrc

 

      1. 安裝Eclipse

 下載地址:http://www.eclipse.org/downloads/

 下載完後,解壓就能夠直接使用, Eclipse不須要安裝。

  tar -zxvf eclipse-jee-mars-2-linux-gtk-x86_64.tar.gz

  cp -R eclipse /usr/local/

 

      1. 安裝開發python程序的eclipse插件pydev4.5.5

下載地址:http://www.pydev.org/index.html

將壓縮文件解壓出來,獲得features和plugins兩個文件夾,而後將兩個文件夾中的文件分別拷貝到Eclipse安裝目錄下的features和plugins目錄中。

 

而後配置python解釋器,啓動Eclipse,打開window->Preferences,選擇Interpreter-Python,而後選擇New,在彈出的對話框的Interpreter Name寫Python, 在Interpreter Executable寫入python可執行解釋器的地址。 

若是eclipse打開時沒有菜單欄,經過如下方法解決:

其實就是缺一個環境變量UBUNTU_MENUPROXY. 在/etc/profile 裏面新建這個變量而且把值寫成0, 而後重啓就行啦,export UBUNTU_MENUPROXY=0 

 

下面是Scrapy爬蟲開發安裝

1.先安裝好python集成開發環境,參考前面步驟

2. 安裝 Scrapy

     Scrapy依賴於Python開發庫和pip。

      Python 最新的版本已經在Ubuntu上預裝了,所以咱們在安裝 Scrapy以前只需安裝pip和python開發庫就能夠了。

      pip是做爲python包索引器easy_install的替代品,用於安裝和管理Python包。

     安裝pip:sudo apt-get install python-pip

     安裝python-dev:sudo apt-get install python-dev

     安裝Scrapy:pip install Scrapy

 

3. 安裝pyquery包 :pip install pyquery  

     pyQuery 是 jQuery 的Python實現,若是對Web前端有了解,特別是有用過 jQuery 的,那麼 pyQuery 將會是你處理HTML內容的最佳選擇。

相關文章
相關標籤/搜索