Windows下使用Hadoop2.6.0-eclipse-plugin插件

時間 2019-11-07

標籤 windows 使用 hadoop2.6.0 hadoop eclipse plugin 插件欄目 Windows 简体版

原文原文鏈接

首先說一下本人的環境:html

Windows7 64位系統java

Spring Tool Suite Version: 3.4.0.RELEASEnode

Hadoop2.6.0git

一．簡介

Hadoop2.x以後沒有Eclipse插件工具，咱們就不能在Eclipse上調試代碼，咱們要把寫好的java代碼的MapReduce打包成jar而後在Linux上運行，因此這種不方便咱們調試代碼，因此咱們本身編譯一個Eclipse插件，方便咱們在咱們本地上調試，通過hadoop1.x的發展，編譯hadoop2.x版本的eclipse插件比以前簡單多了。接下來我們開始編譯Hadoop-eclipse-plugin插件，並在Eclipse開發Hadoop。github

二．軟件安裝並配置

1.JDK配置

1) 安裝jdkapache

2) 配置環境變量服務器

JAVA_HOME、CLASSPATH、PATH等設置，這裏就很少介紹，網上不少資料app

2.Eclipse

1).下載eclipse-jee-juno-SR2.rareclipse

2).解壓到本地磁盤，如圖所示：分佈式

3.Ant

1）下載

http://ant.apache.org/bindownload.cgi

apache-ant-1.9.4-bin.zip

2）解壓到一個盤，如圖所示：

3）.環境變量的配置

新建ANT_HOME=E:\ant\apache-ant-1.9.4-bin\apache-ant-1.9.4

在PATH後面加;%ANT_HOME%\bin

4）cmd 測試一下是否配置正確

ant version 如圖所示：

4.Hadoop

1).下載hadoop包

hadoop-2.6.0.tar.gz

解壓到本地磁盤，如圖所示：

下載hadoop2x-eclipse-plugin源代碼

1）目前hadoop2的eclipse-plugins源代碼由github脫管，下載地址是https://github.com/winghc/hadoop2x-eclipse-plugin，而後在右側的Download ZIP鏈接點擊下載，如圖所示：

2）下載hadoop2x-eclipse-plugin-master.zip

解壓到本地磁盤，如圖所示：

三．編譯hadoop-eclipse-plugin插件

1.hadoop2x-eclipse-plugin-master解壓在E：盤打開命令行cmd，切換到E:\hadoop\hadoop2x-eclipse-plugin-master\src\contrib\eclipse-plugin 目錄，如圖所示：

2.執行ant jar

antjar -Dversion=2.6.0 -Declipse.home=F:\tool\eclipse-jee-juno-SR2\eclipse-jee-juno-SR2 -Dhadoop.home=E:\hadoop\hadoop-2.6.0\hadoop-2.6.0，如圖所示：

3.編譯成功生成的hadoop-eclipse-plugin-2.6.0.jar在E:\hadoop\hadoop2x-eclipse-plugin-master\build\contrib\eclipse-plugin路徑下，如圖所示：

四．Eclipse配置hadoop-eclipse-plugin 插件

1.我已經把能夠用的插件包上傳了，http://pan.baidu.com/s/1qWG7XxU(請注意個人環境win7 64位)把hadoop-eclipse-plugin-2.6.0.jar拷貝到F:\tool\eclipse-jee-juno-SR2\eclipse-jee-juno-SR2\plugins目錄下，重啓一下Eclipse，而後能夠看到DFS Locations,如圖所示：

2.打開Window-->Preferens，能夠看到Hadoop Map/Reduc選項，而後點擊，而後添加hadoop-2.6.0進來，如圖所示：

3.配置Map/ReduceLocations

1）點擊Window-->Show View -->MapReduce Tools 點擊Map/ReduceLocation

2）點擊Map/ReduceLocation選項卡，點擊右邊小象圖標，打開Hadoop Location配置窗口：輸入Location Name，任意名稱便可.配置Map/Reduce Master和DFS Mastrer，Host和Port配置成hdfs-site.xml與core-site.xml的設置一致便可。

4.查看是否鏈接成功

五.新建MapReduce項目並運行

1.右擊New->Map/Reduce Project

2.新建WordCount.java（在Hadoop的share目錄下找到mapreduce的案例，copy過來）

3.在hdfs建立一個input目錄（輸出目錄能夠不用建立,運行MR是會自動建立），並上傳一個file01文件(隨便寫幾個單詞)

hdfs dfs -mkdir –p /user/root/input

hdfs dfs -mkdir -p /user/root/output

hadoop fs -put file01 /input

4.點擊WordCount.java右擊-->Run As-->Run COnfigurations 設置輸入和輸出目錄路徑，如圖所示：

5.點擊WordCount.java右擊-->Run As-->Run on Hadoop

而後到output/count目錄下，有一個統計文件，並查看結果，因此配置成功。

6、接下來就是可能遇到的問題：

問題一.An internal error occurred during: "Map/Reducelocation status updater".java.lang.NullPointerException

咱們hadoop-eclipse-plugin-2.6.0.jar放到Eclipse的plugins目錄下，咱們的Eclipse目錄是F:\tool\eclipse-jee-juno-SR2\eclipse-jee-juno-SR2\plugins，重啓一下Eclipse，而後，打開Window-->Preferens，能夠看到Hadoop Map/Reduc選項，而後點擊出現了An internal error occurredduring: "Map/Reduce location status updater".java.lang.NullPointerException，如圖所示：

解決：

咱們發現剛配置部署的Hadoop2還沒建立輸入和輸出目錄，先在hdfs上建個文件夾。

#bin/hdfs dfs -mkdir –p /user/root/input

#bin/hdfs dfs -mkdir -p /user/root/output

咱們在Eclipse的DFS Locations目錄下看到咱們這兩個目錄，如圖所示：

問題二.Exception in thread "main" java.lang.NullPointerException atjava.lang.ProcessBuilder.start(Unknown Source)

運行Hadoop2的WordCount.java代碼時出現了這樣錯誤，

  log4j:WARNPlease initialize the log4j system properly.
log4j:WARN Seehttp://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
Exception in thread "main" java.lang.NullPointerException
       atjava.lang.ProcessBuilder.start(Unknown Source)
       atorg.apache.hadoop.util.Shell.runCommand(Shell.java:482)
       atorg.apache.hadoop.util.Shell.run(Shell.java:455)
       atorg.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:715)
       atorg.apache.hadoop.util.Shell.execCommand(Shell.java:808)
       atorg.apache.hadoop.util.Shell.execCommand(Shell.java:791)
       at

分析：

下載Hadoop2以上版本時，在Hadoop2的bin目錄下沒有winutils.exe

解決：

1.下載http://pan.baidu.com/s/1qWG7XxU下載Hadoop2.6.0-eclipse插件.zip，而後解壓後，把Hadoop2.6.0-eclipse插件.zip\eclipse插件\2.4之後的目錄中的winutils.exe複製Hadoop2/bin目錄下。如圖所示：

2.Eclipse-》window-》Preferences 下的Hadoop Map/Peduce 把下載放在咱們的磁盤的Hadoop目錄引進來，如圖所示：

3.Hadoop2配置變量環境HADOOP_HOME 和path，如圖所示：

問題三.Exception in thread "main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

當咱們解決了問題三時，在運行WordCount.java代碼時，出現這樣的問題

log4j:WARN No appenders could be found forlogger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).
log4j:WARN Please initialize the log4jsystem properly.
log4j:WARN Seehttp://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
Exception in thread "main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
       atorg.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)
       atorg.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:557)
       atorg.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:977)
       atorg.apache.hadoop.util.DiskChecker.checkAccessByFileMethods(DiskChecker.java:187)
       atorg.apache.hadoop.util.DiskChecker.checkDirAccess(DiskChecker.java:174)
       atorg.apache.hadoop.util.DiskChecker.checkDir(DiskChecker.java:108)
       atorg.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.confChanged(LocalDirAllocator.java:285)
       atorg.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:344)
       atorg.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150)
       atorg.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131)
       atorg.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:115)
       atorg.apache.hadoop.mapred.LocalDistributedCacheManager.setup(LocalDistributedCacheManager.java:131)

分析：

C:\Windows\System32下缺乏hadoop.dll,把這個文件拷貝到C:\Windows\System32下面便可。

解決：

將壓縮包中的hadoop.dll放到C:\Windows\System32下，而後重啓電腦，也許還沒那麼簡單，仍是出現這樣的問題。若是這個仍是沒解決，最好在%HADOOP_HOME%/bin目錄下面也複製一份。

咱們在繼續分析：

咱們在出現錯誤的的atorg.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:557)咱們來看這個類NativeIO的557行，如圖所示：

Windows的惟一方法用於檢查當前進程的請求，在給定的路徑的訪問權限，因此咱們先給以能進行訪問，咱們本身先修改源代碼，return true 時容許訪問。咱們下載對應hadoop源代碼，hadoop-2.6.0-src.tar.gz解壓，hadoop-2.6.0-src\hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\io\nativeio下NativeIO.java 複製到對應的Eclipse的project，而後修改557行爲return true如圖所示：

問題四：org.apache.hadoop.security.AccessControlException: Permissiondenied: user=zhengcy, access=WRITE,inode="/user/root/output":root:supergroup:drwxr-xr-x

咱們在執行運行WordCount.java代碼時，出現這樣的問題

2014-12-18 16:03:24,092  WARN (org.apache.hadoop.mapred.LocalJobRunner:560) - job_local374172562_0001
org.apache.hadoop.security.AccessControlException: Permission denied: user=zhengcy, access=WRITE, inode="/user/root/output":root:supergroup:drwxr-xr-x
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkFsPermission(FSPermissionChecker.java:271)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:257)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:238)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:179)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6512)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6494)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6446)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4248)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4218)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4191)
	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:813)

分析：

咱們沒權限訪問output目錄。

解決：

咱們在設置hdfs配置的目錄是在hdfs-site.xml配置hdfs文件存放的地方，我在hadoop僞分佈式部署那邊有介紹過，咱們在這邊在複習一下，如圖所示：

咱們在這個etc/hadoop下的hdfs-site.xml添加

<name>dfs.permissions</name>
<value>false</value>
</property>

設置沒有權限，不過咱們在正式的服務器上不能這樣設置。

問題五：File/usr/root/input/file01._COPYING_ could only be replicated to 0 nodes instead ofminRepLication (=1) There are 0 datanode(s) running and no node(s) are excludedin this operation

如圖所示：

分析：

咱們在第一次執行#hadoop namenode –format 完而後在執行#sbin/start-all.sh

在執行#jps，能看到Datanode，在執行#hadoop namenode –format而後執行#jps這時看不到Datanode ,如圖所示：

而後咱們想把文本放到輸入目錄執行bin/hdfs dfs -put/usr/local/hadoop/hadoop-2.6.0/test/* /user/root/input 把/test/*文件上傳到hdfs的/user/root/input中,出現這樣的問題，

解決：

是咱們執行太屢次了hadoopnamenode –format，在建立了多個，咱們對應的hdfs目錄刪除hdfs-site.xml配置的保存datanode和namenode目錄。

問題六：在複製了hadoop.dll後，運行WordCount，發現運行一會沒有任何信息輸出就結束了

解決:能夠寫一個log4j日誌文件，查看一下日誌的輸出，可能從輸出的日誌中發現問題。

內容寫爲:

log4j.rootLogger=debug,stdout,R 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%5p - %m%n 
log4j.appender.R=org.apache.log4j.RollingFileAppender 
log4j.appender.R.File=mapreduce_test.log 
log4j.appender.R.MaxFileSize=1MB 
log4j.appender.R.MaxBackupIndex=1 
log4j.appender.R.layout=org.apache.log4j.PatternLayout 
log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n 
log4j.logger.com.codefutures=DEBUG

問題七：有了log4j日誌輸出後，查看問題就比較方便了，若是同一個MR執行兩次，會出現輸出文件已存在的問題

解決：能夠刪除掉存在的輸出文件，也能夠改代碼中輸出的路徑

Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://192.168.233.11:8020/mroutput already exists
	at org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:146)
	at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:562)
	at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:432)
	at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1296)
	at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1293)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:396)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1628)
	at org.apache.hadoop.mapreduce.Job.submit(Job.java:1293)
	at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1314)
	at test.WordCount.main(WordCount.java:87)

問題八:出現內存溢出的問題java.lang.OutOfMemoryError

  WARN - job_local845949011_0001
 java.lang.Exception: java.lang.OutOfMemoryError: Java heap space
	at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
	at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
Caused by: java.lang.OutOfMemoryError: Java heap space
	at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:983)
	at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:401)
	at org.apache.hadoop.mapred.MapTask.access$100(MapTask.java:81)
	at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:695)
	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:767)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
	at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:243)
	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:441)
	at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)
	at java.util.concurrent.FutureTask.run(FutureTask.java:138)
	at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
	at java.lang.Thread.run(Thread.java:619)

解決：右鍵WordCount,-->run Confi....

感謝:（部份內容摘自下面，本身作了一些修改和補充）

http://blog.csdn.net/congcong68/article/details/42098391

http://blog.csdn.net/congcong68/article/details/42043093