搭建Hadoop的環境node
準備實驗的環境:
一、安裝Linux、JDK
二、配置主機名、免密碼登陸
三、約定:安裝目錄:/root/trainingbash
安裝:
一、解壓 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/
二、設置環境變量: vi ~/.bash_profile
HADOOP_HOME=/root/training/hadoop-2.4.1
export HADOOP_HOME框架
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
生效環境變量: source ~/.bash_profile
第一節:Hadoop的目錄結構分佈式
第二節:Hadoop的本地模式
一、特色:不具有HDFS,只能測試MapReduce程序
二、修改hadoop-env.sh
修改第27行:export JAVA_HOME=/root/training/jdk1.7.0_75
三、演示Demo: $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar
命令:hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /root/data/input/data.txt /root/data/output/wc
日誌:17/08/04 23:28:38 INFO mapreduce.Job: map 100% reduce 100%
注意:MR有一個默認的排序規則oop
第三節:Hadoop的僞分佈模式
一、特色:具有Hadoop的全部功能,在單機上模擬一個分佈式的環境
(1)HDFS:主:NameNode,數據節點:DataNode
(2)Yarn:容器,運行MapReduce程序
主節點:ResourceManager
從節點:NodeManager
二、步驟:
(1)hdfs-site.xml
<!--配置HDFS的冗餘度-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>測試
<!--配置是否檢查權限-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property> 命令行
(2)core-site.xml
<!--配置HDFS的NameNode-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.88.11:9000</value>
</property>日誌
<!--配置DataNode保存數據的位置-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.4.1/tmp</value>
</property>
(3) mapred-site.xml
<!--配置MR運行的框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
(4) yarn-site.xml
<!--配置ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>192.168.88.11</value>
</property>orm
<!--配置NodeManager執行任務的方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
(5) 格式化NameNode
hdfs namenode -format
日誌:Storage directory /root/training/hadoop-2.4.1/tmp/dfs/name has been successfully formatted.
(6) 啓動:start-all.sh
(*) HDFS: 存儲數據
(*) Yarn:執行計算
(7) 訪問:(*)命令行
(*)Java API
(*)Web Console:
HDFS:http://192.168.88.11:50070
Yarn:http://192.168.88.11:8088xml
Hadoop的目錄結構:
Hadoop的本地模式:
Hadoop 的僞分佈式: