編寫hadoop程序並打成jar包上傳到hadoop集羣運行

準備工做:html

    1. hadoop集羣(我用的是hadoop-2.7.3版本),這裏hadoop有兩種:1是編譯好的hadoop-2.7.3;2是源代碼hadoop-2.7.3-src;java

    2. 本身的機器能夠是任何系統,只要支持JVM,本身的主機上必須有eclipse,以及hadoop-2.7.3和hadoop-2.7.3-src。(我用的是windows系統,爲了方便Linux系統傳輸數據,我選用了FileZilla,一款ftp工具,具體見www.cnblogs.com/NongSi-Net/p/6744321.html; 若是是linux系統,能夠用ssh,ssh能實現     linux系統相互傳輸數據)
linux

開始:apache

   1. 打開eclipse,點擊File -> New -> Java Project 編程

                              

 

    2. 編寫Hadoop程序。這裏咱們以hadoop自己自帶的WordCount.java爲例,在hadoop-2.7.3-src\hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples\WordCount.java。windows

        把WordCount.java複製到WC的src裏面。它會顯示錯誤。刪除package org.apache.hadoop.examples; 保存eclipse

                                                   

        結果仍是報錯。解決辦法如3,引入所需jar包。ssh

    3. 右鍵WC項目,Build Path -> Configure Bulid Path... -> Libraries -> Add External Jars... 添加所需jar包。hadoop編程所需的jar包在hadoop-2.7.3\share\hadoop\下的文件的下一層的jar包(若是有的話),以及hadoop-2.7.3\share\hadoop\common\lib的裏的jar包。 工具

    

       而後就沒有錯誤了。oop

    4.  打jar包。右鍵WC項目,Export -> Java -> JAR file

       

    5. 上傳到hadoop集羣。(其中windows<->linux交互,用ftp工具FileZilla。linux<->linux交互,用ssh)

 

    6. 在hadoop集羣中,在上傳的hadoop節點上,運行咱們編寫的hadoop程序:

    hadoop jar wc.jar WordCount   zc/input/   zc/output

 

(還能夠看一下另外不一樣的方式,這種方式須要本機部署好hadoop: eclipse想要開發Hadoop程序,還要引入一個jar包,在 eclipse/plugins/下引入hadoop-eclipse-plugin-2.7.2.jar, 沒有找到hadoop-eclipse-plugin-2.7.3.jar.  參考Linux下使用Eclipse開發Hadoop應用程序)

相關文章
相關標籤/搜索