簡介:Hadoop分佈式系統體系結構的核心: HDFS和MapReduce 。HDFS在集羣上實現分佈式文件系統,MapReduce在集羣上實現了分佈式計算和任務處理。HDFS在MapReduce任務處理過程當中提供了文件操做和存儲等支持,MapReduce在HDFS的基礎上實現了任務的分發、跟蹤、執行等工做,並收集結果,兩者相互做用,完成了Hadoop分佈式集羣的主要任務。node
一 搭建環境:shell
1 Linux 操做系統 apache
2 Linux遠程鏈接工具 xshell+xftpeclipse
3 Hadoop 源碼下載地址分佈式
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.2/hadoop-2.7.2-src.tar.gz工具
啓動Hadoopoop
1 ./etc/hadoop/hadoop-env.sh 中設置 JAVA_HOME 變量,即在該文件中找到:
export JAVA_HOME=${JAVA_HOME}
將這一行改成JAVA安裝位置:spa
修改配置文件操作系統
2 配置完成後,執行 NameNode 的格式化: /bin/hdfs namenode -format插件
修改core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/zjf/hadoop-0.20.2/tmpPath</value> !這裏改下路徑 </property> </configuration>
修改hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
啓動hdfs start-dfs.sh
中止 stop-dfs.sh
配置yarn
修改mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
修改 yarn-site.xml 文件
#添加以下內容
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
啓動yarn
start-yarn.sh
#中止yarn stop-yarn.sh
管理界面:http://localhost:8088
NameNode界面:http://localhost:50070
HDFS NameNode界面:http://localhost:8042
二 在Eclipse下裝入Hadoop插件:
https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar
將jar放在eclipse的plugin下,重啓eclipse
打開Window->View View->Other 選擇Map/Reduce Tools,單擊Map/Reduce Locations,會打開一個View,
添加Hadoop Loacation,其中Host和Port的內容跟據conf/hadoop-site.xml的配置填寫,UserName 是用戶名,如