Hadoop最簡單入門實戰

1、部署Hadoop本地模式

  1. 搭建linux環境
    我用的centos7
  2. 在/opt目錄下建立目錄
mkdir module
  1. 安裝jdk
  2. 下載hadoop https://hadoop.apache.org/releases.html 並解壓到/opt/module目錄
  3. 配置hadoop環境變量

vi /etc/profilehtml

JAVA_HOME=/usr/local/jdk1.8.0_151
HADOOP_HOME=/opt/module/hadoop-2.10.0
CLASSPATH=.:$JAVA_HOME/lib.tools.jar
PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin
export JAVA_HOME CLASSPATH PATH

配置完畢,刷新node

source /etc/profilelinux

這就安裝完畢了,簡單吧。。。web

2、運行Demo

  1. 創建一個測試用的輸入文件

echo 'hadoop mapreduce hivehbase spark stormsqoop hadoop hivespark' > data/wc.inputapache

  1. 運行命令
    官方提供的計算單詞數量的程序

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount ../data/wc.input outputcentos

  1. 運行完成後,會建立一個output目錄,裏面中有 _SUCCESS 文件說明 JOB 運行成功,part-r-00000 是輸出結果文件。結果示例以下:

3、僞分佈式部署

進入hadoop目錄服務器

cd /opt/module/hadoop-2.10.0/etc/hadoopapp

  1. 配置hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_151
  1. 配置core-site.xml
<configuration>
   <!-- 指定HDFS中namenode的路徑  -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
   <!-- 指定HDFS運行時產生的文件的存儲目錄  -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.10.0/data/tmp</value>
    </property>

</configuration>
  1. 配置hdfs-site.xml
<property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
  1. 啓動集羣
  • 格式化NameNode(第一次啓動格式化)

bin/hdfs namenode -formatwebapp

  • 啓動namenode

sbin/hadoop-daemon.sh start namenode分佈式

  • 啓動datanode

sbin/hadoop-daemon.sh start datanode

4、HDFS操做

  1. hdfs建立目錄

bin/hdfs dfs -mkdir -p /usr/mmc

  1. 上傳本地文件到hdfs

bin/hdfs dfs -put /opt/module/data/wc.input /usr/mmc

  1. 刪除文件

bin/hdfs dfs -rm -r /usr/mmc

網頁上查看效果:

5、啓動YARN

  1. 配置yarn-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_151

  1. 配置yarn-site.xml
<configuration>

<!-- Site specific YARN configuration properties -->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop101</value>
</property>

</configuration>

hadoop101那裏要配置爲你虛擬機的hostname

  1. 配置mapred-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_151

  1. 配置mapred-site.xml(由mapred-site.xml.template重命名獲得)

mv mapred-site.xml.template mapred-site.xml

<configuration>
        <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
        </property>
</configuration>
  1. 啓動yarn
sbin/yarn-daemon.sh start resourcemanager
 sbin/yarn-daemon.sh start nodemanager
  1. 運行mapreduce程序
  • 先傳一個文件到hdfs上
hdfs dfs -mkdir -p /usr/mmc/input
hdfs dfs -put ../data/wc.input /usr/mmc/input
  • 運行程序

注意:運行以前用jps查看下,這些都啓動沒有NameNode、NodeManager 、DataNode、ResourceManager

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount /usr/mmc/input /usr/mmc/output
  • 查看運行進度

http://192.168.1.21:8088/cluster

此時能夠看到執行的進度了,可是那個History連接仍是點不動,須要啓動歷史服務器

  1. 配置歷史服務器
  • 打開mapred-site.xml
<configuration>
        <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
        </property>
        <property>
        <name>mapreduce.jobhistory.address</name>
        <value>eshop01:10020</value>
        </property>
        <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>eshop01:19888</value>
        </property>
</configuration>
  • 啓動

sbin/mr-jobhistory-daemon.sh start historyserver

6、日誌彙集

注意:開啓日誌彙集須要重啓Nodemanager,resourcemanager,historymanager

  1. 配置yarn-site.xml,增長以下配置
<!--開啓日誌彙集功能  -->
<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
</property>
<!-- 日誌保留時間  -->
<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
</property>
  1. 啓動Nodemanager,resourcemanager,historymanager

  2. 運行實例程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount /usr/mmc/input /usr/mmc/output
  1. 查看log
    http://192.168.1.21:19888/jobhistory 點擊指定job進去,點log
相關文章
相關標籤/搜索