Hadoop2.X的環境配置與運行官方案例

時間 2021-05-09

標籤 java linux c++ 正則表達式 shell 編程 app dom curl tcp 欄目 Hadoop 简体版

原文原文鏈接

1、安裝以前的準備
1.1 修改主機名稱
進入 Linux 系統查看本機的主機名。經過 hostname 命令查看。
[root@localhost ~]# hostname
localhost.localdomain
若是此時須要修改主機名則能夠按照以下的方式進行修改
範例一：臨時修改主機名稱爲Hadoop01 hostname hadoop01 重啓以後失效
範例二：永久修改主機名稱爲Hadoop01
vi /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=hadoop01
在修改完主機名稱以後，須要編輯/etc/hosts 文件須要把主機名稱與IP地址進行映射
vi /etc/hosts 在該文件下添加以下內容java

192.168.1.128 hadoop01 # 地址是本身主機名稱的ip
1.2 關閉防火牆
1）service iptables stop 關閉防火牆
2）chkconfig iptables off 永久關閉防火牆啓動
3）chkconfig iptables --list 查看防火牆開機啓動狀態
1.3 規劃軟件安裝目錄
1）建立安裝包的保存目錄，以及安裝目錄
mkdir -p /opt/software 保存軟件的安裝包
mkdir -p /opt/app 軟件的安裝路徑
1.4 建立Hadoop用戶，以及賦予sudo權限
1）建立Hadoop用戶，之後的操做都是在hadoop用戶下完成的
useradd hadoop 建立hadoop用戶
passwd hadoop 爲hadoop用戶設置密碼
2）爲hadoop用戶賦予sudo權限
在root用戶下，執行visudo命令編輯以下內容
Allow root to run any commands anywhere root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL 爲hadoop用戶設置sudo權限
Same thing without a password %wheel ALL=(ALL) NOPASSWD: ALL hadoop ALL=(ALL) NOPASSWD: ALL. 爲hadoop用戶設置免密碼sudo權限
1.5 安裝JDK環境
首先先把jdk的安裝包上傳到software 文件夾下，以後對其安裝
1)解壓 sudo tar -zvxf jdk-8u181-linux-x64.tar.gz
2)配置JDK環境變量
首先獲取JDK的安裝路徑
[hadoop@hadoop01 jdk1.8.0_181]$ pwd
/opt/soft/jdk1.8.0_181
接下來打開 /etc/profile 文件進行環境變量的設置
vi /etc/profile
在 profie 文件末尾添加 jdk 路徑:linux

JAVA_HOME

export JAVA_HOME=/data/jdk1.8.0_181
export PATH=$JAVA_HOME/bin:$PATH
保存後推出：wq
完成以上的操做以後，配置文件並不能當即生效，須要使用到以下命令，使配置文件當即生效
[hadoop@hadoop01 jdk1.8.0_181]$ source /etc/profile
以後測試JDK環境變量是否配置成功，使用以下命令輸出JDK的版本信息
[hadoop@hadoop01 jdk1.8.0_181]$ java -version
java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)
若是能看到如上的信息，說明JDK的環境變量已經配置成功
1.6 安裝Hadoop環境
1）進入到軟件包的安裝路徑下：
[hadoop@hadoop01 /]$ cd /opt/soft/
對hadoop安裝包進行解壓
[hadoop@hadoop01 soft]$ sudo tar -zvxf hadoop-2.7.2.tar.gz
解壓成功以後，hadoop的安裝目錄結構以下：
bin：Hadoop最基本的管理腳本和使用腳本所在目錄，這些腳本是sbin目錄下管理腳本的基礎實現，用戶能夠直接使用這些腳本管理和使用hadoop
etc：Hadoop配置文件所在目錄，包括core-site.xml, hdfs-site.xml, mapred-site.xml等從hadoop1.0繼承而來的配置文件和yarn-site.xml等hadoop 2.0新增的配置文件
include：對外提供的編程酷頭文件（具體動態庫和靜態庫在lib目錄中），這些頭文件均是用c++定義的，一般用於c++程序訪問hdfs或者編寫mapreduce程序
lib：該目錄包含了Hadoop對外提供的的編程動態庫和靜態庫，與include目錄中的頭文件結合使用。
libexec：各個服務對應的shell配置文件所在目錄，可用於配置日誌輸出目錄，啓動參數（好比JVM參數）等基本信息。
sbin：Hadoop管理腳本所在目錄，主要包含HDFS和YARN中各種服務的啓動/關閉腳本
share：Hadoop各個模塊編譯後的jar包所在目錄
2) 配置hadoop環境
hadoop須要咱們配置的相關文件都存放在$HADOOP_HOME/etc/hadoop目錄下面，首先進入到該目錄
[hadoop@hadoop01 hadoop]$ cd etc/hadoop/
進入到該目錄以後使用ls 命令查看該目錄下的文件信息
-rw-r--r--. 1 root root 4436 May 22 2017 capacity-scheduler.xml
-rw-r--r--. 1 root root 1335 May 22 2017 configuration.xsl
-rw-r--r--. 1 root root 318 May 22 2017 container-executor.cfg
-rw-r--r--. 1 root root 774 May 22 2017 core-site.xml
-rw-r--r--. 1 root root 3670 May 22 2017 hadoop-env.cmd
-rw-r--r--. 1 root root 4224 May 22 2017 hadoop-env.sh
-rw-r--r--. 1 root root 2598 May 22 2017 hadoop-metrics2.properties
-rw-r--r--. 1 root root 2490 May 22 2017 hadoop-metrics.properties
-rw-r--r--. 1 root root 9683 May 22 2017 hadoop-policy.xml
-rw-r--r--. 1 root root 775 May 22 2017 hdfs-site.xml
-rw-r--r--. 1 root root 1449 May 22 2017 httpfs-env.sh
-rw-r--r--. 1 root root 1657 May 22 2017 httpfs-log4j.properties
-rw-r--r--. 1 root root 21 May 22 2017 httpfs-signature.secret
-rw-r--r--. 1 root root 620 May 22 2017 httpfs-site.xml
-rw-r--r--. 1 root root 3518 May 22 2017 kms-acls.xml
-rw-r--r--. 1 root root 1527 May 22 2017 kms-env.sh
-rw-r--r--. 1 root root 1631 May 22 2017 kms-log4j.properties
-rw-r--r--. 1 root root 5511 May 22 2017 kms-site.xml
-rw-r--r--. 1 root root 11237 May 22 2017 log4j.properties
-rw-r--r--. 1 root root 951 May 22 2017 mapred-env.cmd
-rw-r--r--. 1 root root 1383 May 22 2017 mapred-env.sh
-rw-r--r--. 1 root root 4113 May 22 2017 mapred-queues.xml.template
-rw-r--r--. 1 root root 758 May 22 2017 mapred-site.xml.template
-rw-r--r--. 1 root root 10 May 22 2017 slaves
-rw-r--r--. 1 root root 2316 May 22 2017 ssl-client.xml.example
-rw-r--r--. 1 root root 2268 May 22 2017 ssl-server.xml.example
-rw-r--r--. 1 root root 2250 May 22 2017 yarn-env.cmd
-rw-r--r--. 1 root root 4567 May 22 2017 yarn-env.sh
-rw-r--r--. 1 root root 690 May 22 2017 yarn-site.xml
咱們首先能夠發現，這些文件目前的權限都是基於root用戶的，可是咱們如今使用的是hadoop用戶，hadoop用戶並無這些文件的權限，因此首先須要修改權限
使用chown 命令修改用戶與用戶組權限
sudo chown -R hadoop:hadoop /opt/soft/hadoop-2.7.2/
修改完成以後再次使用ls命令查看文件，查看是否修改爲功 [hadoop@hadoop01 hadoop]$ ll
-rw-r--r--. 1 hadoop hadoop 4436 May 22 2017 capacity-scheduler.xml
-rw-r--r--. 1 hadoop hadoop 1335 May 22 2017 configuration.xsl
-rw-r--r--. 1 hadoop hadoop 318 May 22 2017 container-executor.cfg
-rw-r--r--. 1 hadoop hadoop 774 May 22 2017 core-site.xml
-rw-r--r--. 1 hadoop hadoop 3670 May 22 2017 hadoop-env.cmd
-rw-r--r--. 1 hadoop hadoop 4224 May 22 2017 hadoop-env.sh
-rw-r--r--. 1 hadoop hadoop 2598 May 22 2017 hadoop-metrics2.properties
-rw-r--r--. 1 hadoop hadoop 2490 May 22 2017 hadoop-metrics.properties
-rw-r--r--. 1 hadoop hadoop 9683 May 22 2017 hadoop-policy.xml
-rw-r--r--. 1 hadoop hadoop 775 May 22 2017 hdfs-site.xml
-rw-r--r--. 1 hadoop hadoop 1449 May 22 2017 httpfs-env.sh
-rw-r--r--. 1 hadoop hadoop 1657 May 22 2017 httpfs-log4j.properties
-rw-r--r--. 1 hadoop hadoop 21 May 22 2017 httpfs-signature.secret
-rw-r--r--. 1 hadoop hadoop 620 May 22 2017 httpfs-site.xml
-rw-r--r--. 1 hadoop hadoop 3518 May 22 2017 kms-acls.xml
-rw-r--r--. 1 hadoop hadoop 1527 May 22 2017 kms-env.sh
-rw-r--r--. 1 hadoop hadoop 1631 May 22 2017 kms-log4j.properties
-rw-r--r--. 1 hadoop hadoop 5511 May 22 2017 kms-site.xml
-rw-r--r--. 1 hadoop hadoop 11237 May 22 2017 log4j.properties
-rw-r--r--. 1 hadoop hadoop 951 May 22 2017 mapred-env.cmd
-rw-r--r--. 1 hadoop hadoop 1383 May 22 2017 mapred-env.sh
-rw-r--r--. 1 hadoop hadoop 4113 May 22 2017 mapred-queues.xml.template
-rw-r--r--. 1 hadoop hadoop 758 May 22 2017 mapred-site.xml.template
-rw-r--r--. 1 hadoop hadoop 10 May 22 2017 slaves
-rw-r--r--. 1 hadoop hadoop 2316 May 22 2017 ssl-client.xml.example
-rw-r--r--. 1 hadoop hadoop 2268 May 22 2017 ssl-server.xml.example
-rw-r--r--. 1 hadoop hadoop 2250 May 22 2017 yarn-env.cmd
-rw-r--r--. 1 hadoop hadoop 4567 May 22 2017 yarn-env.sh
-rw-r--r--. 1 hadoop hadoop 690 May 22 2017 yarn-site.xml
經過再次查看咱們發現，如今的權限已經所有修改成hadoop ，這樣咱們就能夠在hadoop用戶下對這些文件進行操做了
完成了以上的配置以後，咱們接下來首先須要配置以下文件
hadoop-env.sh: 用於hadoop的環境變量配置文件
#The java implementation to use.
export JAVA_HOME=/opt/soft/jdk1.8.0_181
在該配置文件中，找到如上內容，而且修改JAVA_HOME 爲本身的JDK路徑配置完成以後，能夠在hadoop根路徑下，輸入以下命令
bin/hadoop
Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
CLASSNAME run the class named CLASSNAME
or
where COMMAND is one of:
fs run a generic filesystem user client
version print the version
jar <jar> run a jar filec++

note: please use "yarn jar" to launch
                         YARN applications, not this command.

checknative [-a|-h] check native hadoop and compression libraries availability
distcp <srcurl> <desturl> copy file or directories recursively
archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
classpath prints the class path needed to get the
credential interact with credential providers正則表達式

Hadoop jar and the required libraries

daemonlog get/set the log level for each daemon
trace view and modify Hadoop tracing settingsshell

Most commands print help when invoked w/o parameters.
若是能看到如上的信息，說明基本的運行環境已經搭建完成了
2、Hadoop運行模式
Hadoop的運行模式，分爲如下幾種：
1）本地模式（默認模式）
不須要啓用單獨進程，直接能夠運行，測試和開發時使用。
2）僞分佈模式
等同於徹底分佈式，只有一個節點。
3）徹底分佈式模式
多個節點一塊兒運行。
2.1 本地運行Hadoop官方案例Grep
對於這個案例來講，主要的做用就是，在一堆文件中與規定的正則表達式進行匹配，把匹配成功的單詞出現的次數，進行統計
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
$ cat output/*
以上爲官網上給出的案例代碼
從以上的案例代碼能夠得出，首先須要建立一個目錄，用於存放須要統計的文件，而對於統計結果的保存目錄則不用之前建立，注意：Hadoop中輸出結果的目錄是不能提早存在的
範例：運行grep案例
1）在hadoop根目錄下建立一個文件夾input
[hadoop@hadoop01 hadoop-2.7.2]$ mkdir input
2) 將hadoop的xml配置文件複製到input
[hadoop@hadoop01 hadoop-2.7.2]$ cp etc/hadoop/*.xml input/
3) 執行share目錄下的mapreduce程序
[hadoop@hadoop01 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
4) 查看輸出結果
[hadoop@hadoop01 hadoop-2.7.2]$ cat output/*
1 dfsadmin
2.2 運行官方wordcount案例
1）在hadoop根目錄中建立用於保存統計文件的wcinput目錄
[hadoop@hadoop01 hadoop-2.7.2]$ mkdir wcinput
2) 在 wcinput 文件下建立一個 wordcount.txt 文件
[hadoop@hadoop01 wcinput]$ vi worldcount.txt
hello java world input
hadoop hive zookeeper java
world input hello hadoop
hbase zookeeper sqoop
3) 執行wordcount案例程序
[hadoop@hadoop01 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
4）查看結果
[hadoop@hadoop01 hadoop-2.7.2]$ cat wcoutput/part-r-00000
hadoop 2
hbase 1
hello 2
hive 1
input 2
java 2
sqoop 1
world 2
zookeeper 2
經過以上的方式，就能夠完成Hadoop的最基本的環境搭建，以及運行Hadoop的一些案例編程