好程序員大數據分享Hadoop2.X的環境配置與運行官方案例

1、安裝以前的準備

1.1 修改主機名稱

進入 Linux 系統查看本機的主機名。經過 hostname 命令查看。java

[root@localhost ~]# hostname
localhost.localdomainlinux

若是此時須要修改主機名則能夠按照以下的方式進行修改c++

範例一:臨時修改主機名稱爲Hadoop01 hostname hadoop01 重啓以後失效正則表達式

範例二:永久修改主機名稱爲Hadoop01shell

vi /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=hadoop01編程

在修改完主機名稱以後,須要編輯/etc/hosts 文件須要把主機名稱與IP地址進行映射app

vi /etc/hosts 在該文件下添加以下內容

192.168.1.128 hadoop01 # 地址是本身主機名稱的ipdom

1.2 關閉防火牆

1)service iptables stop 關閉防火牆curl

2)chkconfig iptables off 永久關閉防火牆啓動tcp

3)chkconfig iptables --list 查看防火牆開機啓動狀態

1.3 規劃軟件安裝目錄

1)建立安裝包的保存目錄,以及安裝目錄

mkdir -p /opt/software 保存軟件的安裝包

mkdir -p /opt/app 軟件的安裝路徑

1.4 建立Hadoop用戶,以及賦予sudo權限

1)建立Hadoop用戶,之後的操做都是在hadoop用戶下完成的

useradd hadoop 建立hadoop用戶

passwd hadoop 爲hadoop用戶設置密碼

2)爲hadoop用戶賦予sudo權限

在root用戶下,執行visudo命令編輯以下內容

Allow root to run any commands anywhere root ALL=(ALL) ALL

hadoop ALL=(ALL) ALL 爲hadoop用戶設置sudo權限

Same thing without a password  %wheel ALL=(ALL) NOPASSWD: ALL  hadoop ALL=(ALL) NOPASSWD: ALL. 爲hadoop用戶設置免密碼sudo權限

1.5 安裝JDK環境

首先先把jdk的安裝包上傳到software 文件夾下,以後對其安裝

1)解壓 sudo tar -zvxf jdk-8u181-linux-x64.tar.gz

2)配置JDK環境變量

首先獲取JDK的安裝路徑

[hadoop@hadoop01 jdk1.8.0_181]$ pwd
/opt/soft/jdk1.8.0_181

接下來打開 /etc/profile 文件進行環境變量的設置

vi /etc/profile

在 profie 文件末尾添加 jdk 路徑:

#JAVA_HOME

export JAVA_HOME=/data/jdk1.8.0_181
export PATH=$JAVA_HOME/bin:$PATH

保存後推出 :wq

完成以上的操做以後,配置文件並不能當即生效,須要使用到以下命令,使配置文件當即生效

[hadoop@hadoop01 jdk1.8.0_181]$ source /etc/profile

以後測試JDK環境變量是否配置成功,使用以下命令輸出JDK的版本信息

[hadoop@hadoop01 jdk1.8.0_181]$ java -version
java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)

若是能看到如上的信息,說明JDK的環境變量已經配置成功

1.6 安裝Hadoop環境

1)進入到軟件包的安裝路徑下:

[hadoop@hadoop01 /]$ cd /opt/soft/

對hadoop安裝包進行解壓

[hadoop@hadoop01 soft]$ sudo tar -zvxf hadoop-2.7.2.tar.gz

解壓成功以後,hadoop的安裝目錄結構以下:

bin:Hadoop最基本的管理腳本和使用腳本所在目錄,這些腳本是sbin目錄下管理腳本的基礎實現,用戶能夠直接使用這些腳本管理和使用hadoop

etc:Hadoop配置文件所在目錄,包括core-site.xml, hdfs-site.xml, mapred-site.xml等從hadoop1.0繼承而來的配置文件和yarn-site.xml等hadoop 2.0新增的配置文件

include:對外提供的編程酷頭文件(具體動態庫和靜態庫在lib目錄中),這些頭文件均是用c++定義的,一般用於c++程序訪問hdfs或者編寫mapreduce程序

lib:該目錄包含了Hadoop對外提供的的編程動態庫和靜態庫,與include目錄中的頭文件結合使用。

libexec:各個服務對應的shell配置文件所在目錄,可用於配置日誌輸出目錄,啓動參數(好比JVM參數)等基本信息。

sbin:Hadoop管理腳本所在目錄,主要包含HDFS和YARN中各種服務的啓動/關閉腳本

share:Hadoop各個模塊編譯後的jar包所在目錄

2) 配置hadoop環境

hadoop須要咱們配置的相關文件都存放在$HADOOP_HOME/etc/hadoop目錄下面,首先進入到該目錄

[hadoop@hadoop01 hadoop]$ cd etc/hadoop/

進入到該目錄以後使用ls 命令查看該目錄下的文件信息

-rw-r--r--. 1 root root  4436 May 22  2017 capacity-scheduler.xml
-rw-r--r--. 1 root root  1335 May 22  2017 configuration.xsl
-rw-r--r--. 1 root root   318 May 22  2017 container-executor.cfg
-rw-r--r--. 1 root root   774 May 22  2017 core-site.xml
-rw-r--r--. 1 root root  3670 May 22  2017 hadoop-env.cmd
-rw-r--r--. 1 root root  4224 May 22  2017 hadoop-env.sh
-rw-r--r--. 1 root root  2598 May 22  2017 hadoop-metrics2.properties
-rw-r--r--. 1 root root  2490 May 22  2017 hadoop-metrics.properties
-rw-r--r--. 1 root root  9683 May 22  2017 hadoop-policy.xml
-rw-r--r--. 1 root root   775 May 22  2017 hdfs-site.xml
-rw-r--r--. 1 root root  1449 May 22  2017 httpfs-env.sh
-rw-r--r--. 1 root root  1657 May 22  2017 httpfs-log4j.properties
-rw-r--r--. 1 root root    21 May 22  2017 httpfs-signature.secret
-rw-r--r--. 1 root root   620 May 22  2017 httpfs-site.xml
-rw-r--r--. 1 root root  3518 May 22  2017 kms-acls.xml
-rw-r--r--. 1 root root  1527 May 22  2017 kms-env.sh
-rw-r--r--. 1 root root  1631 May 22  2017 kms-log4j.properties
-rw-r--r--. 1 root root  5511 May 22  2017 kms-site.xml
-rw-r--r--. 1 root root 11237 May 22  2017 log4j.properties
-rw-r--r--. 1 root root   951 May 22  2017 mapred-env.cmd
-rw-r--r--. 1 root root  1383 May 22  2017 mapred-env.sh
-rw-r--r--. 1 root root  4113 May 22  2017 mapred-queues.xml.template
-rw-r--r--. 1 root root   758 May 22  2017 mapred-site.xml.template
-rw-r--r--. 1 root root    10 May 22  2017 slaves
-rw-r--r--. 1 root root  2316 May 22  2017 ssl-client.xml.example
-rw-r--r--. 1 root root  2268 May 22  2017 ssl-server.xml.example
-rw-r--r--. 1 root root  2250 May 22  2017 yarn-env.cmd
-rw-r--r--. 1 root root  4567 May 22  2017 yarn-env.sh
-rw-r--r--. 1 root root   690 May 22  2017 yarn-site.xml

咱們首先能夠發現,這些文件目前的權限都是基於root用戶的,可是咱們如今使用的是hadoop用戶,hadoop用戶並無這些文件的權限,因此首先須要修改權限

使用chown 命令修改用戶與用戶組權限

sudo chown -R hadoop:hadoop /opt/soft/hadoop-2.7.2/

修改完成以後再次使用ls命令查看文件,查看是否修改爲功 [hadoop@hadoop01 hadoop]$ ll

-rw-r--r--. 1 hadoop hadoop  4436 May 22  2017 capacity-scheduler.xml
-rw-r--r--. 1 hadoop hadoop  1335 May 22  2017 configuration.xsl
-rw-r--r--. 1 hadoop hadoop   318 May 22  2017 container-executor.cfg
-rw-r--r--. 1 hadoop hadoop   774 May 22  2017 core-site.xml
-rw-r--r--. 1 hadoop hadoop  3670 May 22  2017 hadoop-env.cmd
-rw-r--r--. 1 hadoop hadoop  4224 May 22  2017 hadoop-env.sh
-rw-r--r--. 1 hadoop hadoop  2598 May 22  2017 hadoop-metrics2.properties
-rw-r--r--. 1 hadoop hadoop  2490 May 22  2017 hadoop-metrics.properties
-rw-r--r--. 1 hadoop hadoop  9683 May 22  2017 hadoop-policy.xml
-rw-r--r--. 1 hadoop hadoop   775 May 22  2017 hdfs-site.xml
-rw-r--r--. 1 hadoop hadoop  1449 May 22  2017 httpfs-env.sh
-rw-r--r--. 1 hadoop hadoop  1657 May 22  2017 httpfs-log4j.properties
-rw-r--r--. 1 hadoop hadoop    21 May 22  2017 httpfs-signature.secret
-rw-r--r--. 1 hadoop hadoop   620 May 22  2017 httpfs-site.xml
-rw-r--r--. 1 hadoop hadoop  3518 May 22  2017 kms-acls.xml
-rw-r--r--. 1 hadoop hadoop  1527 May 22  2017 kms-env.sh
-rw-r--r--. 1 hadoop hadoop  1631 May 22  2017 kms-log4j.properties
-rw-r--r--. 1 hadoop hadoop  5511 May 22  2017 kms-site.xml
-rw-r--r--. 1 hadoop hadoop 11237 May 22  2017 log4j.properties
-rw-r--r--. 1 hadoop hadoop   951 May 22  2017 mapred-env.cmd
-rw-r--r--. 1 hadoop hadoop  1383 May 22  2017 mapred-env.sh
-rw-r--r--. 1 hadoop hadoop  4113 May 22  2017 mapred-queues.xml.template
-rw-r--r--. 1 hadoop hadoop   758 May 22  2017 mapred-site.xml.template
-rw-r--r--. 1 hadoop hadoop    10 May 22  2017 slaves
-rw-r--r--. 1 hadoop hadoop  2316 May 22  2017 ssl-client.xml.example
-rw-r--r--. 1 hadoop hadoop  2268 May 22  2017 ssl-server.xml.example
-rw-r--r--. 1 hadoop hadoop  2250 May 22  2017 yarn-env.cmd
-rw-r--r--. 1 hadoop hadoop  4567 May 22  2017 yarn-env.sh
-rw-r--r--. 1 hadoop hadoop   690 May 22  2017 yarn-site.xml

經過再次查看咱們發現,如今的權限已經所有修改成hadoop ,這樣咱們就能夠在hadoop用戶下對這些文件進行操做了

完成了以上的配置以後,咱們接下來首先須要配置以下文件

 hadoop-env.sh: 用於hadoop的環境變量配置文件

 #The java implementation to use.
export JAVA_HOME=/opt/soft/jdk1.8.0_181

在該配置文件中,找到如上內容,而且修改JAVA_HOME 爲本身的JDK路徑 配置完成以後,能夠在hadoop根路徑下,輸入以下命令

bin/hadoop

Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
  CLASSNAME            run the class named CLASSNAME
 or
  where COMMAND is one of:
  fs                   run a generic filesystem user client
  version              print the version
  jar <jar>            run a jar file
                       note: please use "yarn jar" to launch
                             YARN applications, not this command.
  checknative [-a|-h]  check native hadoop and compression libraries availability
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
  classpath            prints the class path needed to get the
  credential           interact with credential providers
                       Hadoop jar and the required libraries
  daemonlog            get/set the log level for each daemon
  trace                view and modify Hadoop tracing settings

Most commands print help when invoked w/o parameters.

若是能看到如上的信息,說明基本的運行環境已經搭建完成了

2、Hadoop運行模式

Hadoop的運行模式,分爲如下幾種:

1) 本地模式(默認模式)

不須要啓用單獨進程,直接能夠運行,測試和開發時使用。

2)僞分佈模式

等同於徹底分佈式,只有一個節點。

3)徹底分佈式模式

多個節點一塊兒運行。

2.1 本地運行Hadoop官方案例Grep

對於這個案例來講,主要的做用就是,在一堆文件中與規定的正則表達式進行匹配,把匹配成功的單詞出現的次數,進行統計

  $ mkdir input
  $ cp etc/hadoop/*.xml input
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
  $ cat output/*

 以上爲官網上給出的案例代碼

從以上的案例代碼能夠得出,首先須要建立一個目錄,用於存放須要統計的文件,而對於統計結果的保存目錄則不用之前建立,注意:Hadoop中輸出結果的目錄是不能提早存在的

範例:運行grep案例

1)在hadoop根目錄下建立一個文件夾input

[hadoop@hadoop01 hadoop-2.7.2]$ mkdir input

2) 將hadoop的xml配置文件複製到input

[hadoop@hadoop01 hadoop-2.7.2]$ cp etc/hadoop/*.xml input/

3) 執行share目錄下的mapreduce程序

[hadoop@hadoop01 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

4) 查看輸出結果

[hadoop@hadoop01 hadoop-2.7.2]$ cat output/*
1       dfsadmin

2.2 運行官方wordcount案例

1) 在hadoop根目錄中建立用於保存統計文件的wcinput目錄

[hadoop@hadoop01 hadoop-2.7.2]$ mkdir wcinput

2) 在 wcinput 文件下建立一個 wordcount.txt 文件

[hadoop@hadoop01 wcinput]$ vi worldcount.txt

hello   java    world   input
hadoop  hive    zookeeper       java
world   input   hello   hadoop
hbase   zookeeper       sqoop

3) 執行wordcount案例程序

[hadoop@hadoop01 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

4) 查看結果

[hadoop@hadoop01 hadoop-2.7.2]$ cat wcoutput/part-r-00000
hadoop  2
hbase   1
hello   2
hive    1
input   2
java    2
sqoop   1
world   2
zookeeper       2

經過以上的方式,就能夠完成Hadoop的最基本的環境搭建,以及運行Hadoop的一些案例

相關文章
相關標籤/搜索