Ubuntu13.04 Eclipse下編譯安裝Hadoop插件及使用小例

1、在Eclipse下編譯安裝Hadoop插件

       Hadoop的Eclipse插件如今已經沒有二進制版直接提供,只能本身編譯。不過要注意,必定要下載Hadoop的src包,否則是不帶源代碼的。環境以下:html

Linux的發行版是Ubuntu13.04,Hadoop版本是1.1.2。
hadoop安裝在/opt/hadoop,因此源代碼的目錄是hadoop根路徑下的src/contrib/eclipse-plugin。
Eclipse安裝路徑是/opt/eclipse。

編譯步驟:java

一共須要修改三個文件: web

(1)hadoop根路徑下的src/contrib/eclipse-plugin/build.propertiesapache

(2)hadoop根路徑下的src/contrib/build-contrib.xml網絡

(3)hadoop根路徑下的src/contrib/eclipse-plugin/build.xmlapp

 

具體作以下修改:less

1. 首先編輯 src/contrib/eclipse-plugin/build.properties 文件eclipse

添加兩行,補充Eclipse路徑和Hadoop版本:藍色部分是添加的兩行oop

output.. = bin/
bin.includes = META-INF/,\
               plugin.xml,\
               resources/,\
               classes/,\
               classes/,\
               lib/

eclipse.home=/opt/eclipse
version=1.1.2

注意:網上都說編輯src/contrib/build-contrib.xml,添加兩行,補充Eclipse路徑和Hadoop版本:post

<property name="eclipse.home" location="/opt/eclipse"/>
<property name="version" value="1.1.2"/>

可是我這樣作在ant的時候卻報錯:找不到eclipse.home


2. 咱們須要引用hadoop的一些包,可是默認的classpath沒有這些包(咱們沒有從頭編譯)。因此須要修改classpath
打開src/contrib/eclipse-plugin/build.xml文件,定位<path id="classpath">,加入:

<fileset dir="${hadoop.root}">
    <include name="**/*.jar" />
</fileset>

 

3. 代碼中使用了一些遺留功能,因此咱們要修改deprecation的設定。這一步非必需
打開hadoop根路徑下面的src/contrib/build-contrib.xml,定位

<property name="javac.deprecation" value="off"/>

而後修改爲

<property name="javac.deprecation" value="on"/>

 

4. 修改includeantruntime設置。 這一步非必需 
定位build.xml中的<target name="compile" ...>,修改javac的設置,加入一個選項

 includeantruntime="on"

也就是將javac修改爲

<javac
     encoding="${build.encoding}"
     srcdir="${src.dir}"
     includes="**/*.java"
     destdir="${build.classes}"
     debug="${javac.debug}"
     deprecation="${javac.deprecation}"
     includeantruntime="on">
     <classpath refid="classpath"/>
</javac>

 

5. jar打包的時候須要hadoop的一些jar文件,可是咱們沒有編譯生成它,因此咱們須要修改一下jar這個target。

另外,有幾個jar是咱們須要用到,而build.xml裏面沒有自動包含的,若是不包含它們,Eclipse鏈接Hadoop會出現failure to login錯誤,其實就是找不到類
在build.xml中找到

<copy file="${hadoop.root}/build/hadoop-core-${version}.jar" tofile="${build.dir}/lib/hadoop-core.jar" verbose="true"/>
<copy file="${hadoop.root}/build/ivy/lib/Hadoop/common/commons-cli-${commons-cli.version}.jar"  todir="${build.dir}/lib" verbose="true"/>

咱們修改爲

<copy file="${hadoop.root}/hadoop-core-${version}.jar" tofile="${build.dir}/lib/hadoop-core.jar" verbose="true"/>
<copy file="${hadoop.root}/lib/commons-cli-${commons-cli.version}.jar"  tofile="${build.dir}/lib/commons-cli.jar" verbose="true"/>
<copy file="${hadoop.root}/lib/commons-configuration-1.6.jar"  tofile="${build.dir}/lib/commons-configuration.jar" verbose="true"/>
<copy file="${hadoop.root}/lib/commons-httpclient-3.0.1.jar"  tofile="${build.dir}/lib/commons-httpclient.jar" verbose="true"/>
<copy file="${hadoop.root}/lib/commons-lang-2.4.jar"  tofile="${build.dir}/lib/commons-lang.jar" verbose="true"/>
<copy file="${hadoop.root}/lib/jackson-core-asl-1.8.8.jar"  tofile="${build.dir}/lib/jackson-core-asl.jar" verbose="true"/>
<copy file="${hadoop.root}/lib/jackson-mapper-asl-1.8.8.jar"  tofile="${build.dir}/lib/jackson-mapper-asl.jar" verbose="true"/>
 

 

6. 可是這樣,咱們的jar文件仍是不會自動部署到eclipse中,你能夠手動複製,即將編譯好的/opt/hadoop/build/contrib/eclipse-plugin/hadoop-eclipse-plugin-1.1.2.jar插件複製到eclipse安裝目錄下的plugins下便可

可是咱們但願ant幫咱們自動部署進去。咱們在build.xml中新建一個target,用來部署:

<target name="deploy" depends="jar" unless="skip.contrib">
<copy file="${build.dir}/hadoop-${name}-${version}.jar"  todir="${eclipse.home}/plugins" verbose="true"/>
</target>

而後修改project的默認target,也就是將project修改爲:

<project default="deploy" name="eclipse-plugin">

 

7. 接下來一步咱們要修改Hadoop根目錄下的src/contrib/META-INFO/MANIFEST.MF,修改這個jar的classpath。

找到這個文件的Bundle-ClassPath這一行,而後,修改爲(不能換行,我這裏方便顯示換行了)

 

Bundle-ClassPath: classes/,lib/commons-cli.jar,lib/commons-httpclient.jar,lib/hadoop-core.jar,lib/jackson-mapper-asl.jar,
lib/commons-configuration.jar,lib/commons-lang.jar,lib/jackson-core-asl.jar

 

8. 執行ant,代碼就會被編譯,插件會被自動安裝到eclipse的plugins目錄中,打開eclipse就能夠使用了(若是沒有安裝ant,請去apache下載ant的二進制編譯版,具體見後面附錄)。另外編譯時會自動聯網下載須要的包,因此請保證網絡通暢

啓動Eclipse 後 Window->Open Perspective->Other ,彈出對話框列表中,會出現圖標爲藍色大象,文字爲Map/Reduce 

集成成功!

 

附:Ubuntu下ant的安裝和配置

一. 自動安裝

    sudo apt-get install ant

      可是這種裝法很差。首先安裝的ant不是最新的版本,其次還要裝一堆其餘的附帶的東西。好比一個ant只有幾兆,當用apt-get install方式安裝時須要下載60多兆的東西進行安裝,十分緩慢且佔空間,因此我才用本身手動ant安裝。

 

二. 手動安裝

    1. 到Apache官網下載最新版本的ant:http://ant.apache.org/bindownload.cgi

    2. 解壓下載下來的.tar.gz文件到/opt目錄下:

     tar -xzvf apache-ant-1.9.2-bin.tar.gz -C /opt

    3. 配置環境變量:sudo vi /etc/profile,在原來基礎上添加如下藍體字:

export ANT_HOME=/opt/apache-ant-1.9.2 export JAVA_HOME=/opt/java/jdk1.7.0_25/ export JRE_HOME=/opt/java/jdk1.7.0_25/jre export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$ANT_HOME/bin

    4. 驗證是否安裝成功:

    ant -version

    Apache Ant(TM) version 1.9.2 compiled on July 8 2013

    如此字樣,則表示安裝成功!

 

2、Eclipse中配置Hadoop插件

在編寫MapReduce程序以前須要配置Eclipse環境,步驟以下:

1. 首先配置hadoop installation directory。

若是安裝插件成功,打開Window-->Preferences,你會發現Hadoop Map/Reduce選項,在這個選項裏你須要配置Hadoop installation directory。配置完成後退出。 



2. 打開Map/Reduce視圖,配置Map/Reduce Locations。 

單擊eclipse右上角的Open Perspective圖標,選擇Map/Reduce視圖打開。

 

在Map/Reduce Locations(Eclipse界面的正下方)中新建一個Hadoop Location。在這個View中,點擊鼠標右鍵-->New Hadoop Location。在彈出的對話框中你須要配置Location name,可任意填,如Hadoop,以及Map/Reduce Master和DFS Master。這裏面的Host、Port分別爲你在mapred-site.xml、core-site.xml中配置的地址及端口。個人這兩個文件中配置中部份內容以下: 

mapred-site.xml

<property>
    <name>mapred.job.tracker</name>
    <value>http://192.168.1.151:9001</value>
</property>

 

core-site.xml:

<!-- file system properties -->
  <property>
    <name>fs.default.name</name>
    <value>hdfs://192.168.1.151:9000</value>
  </property>
 

最後的配置截圖以下:

 

設置完成後,點擊Finish就應用了該設置。而後,在最左邊的Project Explorer中就能看到DFS的目錄,以下圖所示:



、在Eclipse中創建項目測試Hadoop插件是否成功配置

固然最經典的以WordCount爲例,就跟Hello World同樣,步驟以下:

1. 新建項目。 
File-->New-->Other-->Map/Reduce Project 
項目名能夠隨便取,如HadoopTest。 
複製 hadoop安裝目錄/src/examples/org/apache/hadoop/examples/WordCount.java到剛纔新建的項目下面,修改裏面的package。

2. 上傳模擬數據文件夾
爲了運行程序,須要一個輸入文件夾和輸出的件夾。輸出文件夾,在程序運行完成後會自動生成。咱們須要給程序一個輸入文件夾。

(1)在當前目錄(如hadoop安裝目錄)下新建文件夾input,並在文件夾下新建兩個文件file0一、file02,這兩個文件內容分別以下: 

// file01
Hello Alexia Welcome Hadoop
// file02
Welcome Alexia Bye Hadoop

 
(2)將文件夾input上傳到HDFS中

在已經啓動Hadoop守護進程終端中cd 到hadoop安裝目錄,運行下面命令: 

bin/hadoop fs -put input input  

這個命令將input文件夾上傳到了hadoop文件系統了,在該系統下就多了一個input文件夾,你能夠使用下面命令查看: 

bin/hadoop fs -ls  

 

3. 運行項目
(1) 在新建的項目HadoopTest,點擊WordCount.java,右鍵-->Run As-->Run Configurations

(2) 在彈出的Run Configurations對話框中,點Java Application,右鍵-->New,這時會新建一個application名爲WordCount 

(3) 配置運行參數,點Arguments,在Program arguments中輸入「你要傳給程序的輸入文件夾和你要求程序將計算結果保存的文件夾」,如: 

hdfs://192.168.1.151:9000/user/hadoop/input hdfs://192.168.1.151:9000/user/hadoop/output

這裏面的input就是你剛傳上去的文件夾。文件夾地址你能夠根據本身具體狀況填寫。以下圖:



(4) 點擊Run,運行程序。

等運行結束後,能夠在終端中用命令以下,

查看是否生成了輸出文件夾output
bin/hadoop fs -ls  

用下面命令查看生成的文件內容
bin/hadoop fs -cat output01/*

若是顯示以下,說明已經成功在eclipse下運行第一個MapReduce程序了

Alexia 2
Bye 1     
Hadoop  2    
Hello   1
Welcome   2 
相關文章
相關標籤/搜索