虛擬機搭建Hadoop集羣

時間 2019-12-14

原文原文鏈接

安裝包準備

操做系統：ubuntu-16.04.3-desktop-amd64.isojava

軟件包：VirtualBoxnode

安裝包：hadoop-3.0.0.tar.gz，jdk-8u161-linux-x64.tar.gzlinux

1. 環境準備

使用VirtualBox和下載的ubuntu鏡像文件新建三個Ubuntu操做環境，具體配置以下：git

用戶	內存(G)	磁盤空間(G)
hadoop01	1.5	10
hadoop02	1.5	10
hadoop03	1.5	10

2. 網絡環境準備

點擊VirtualBox右側「全局工具->主機網絡管理器」，點擊新建，而且勾選DHCP服務器中的啓用服務器，其他的按照默認配置點擊應用便可，這個過程至關於在VirtualBox中建立了一個名稱爲vboxnet0的路由器：web

關閉建立的每一臺虛擬機，而後分別選中每一臺虛擬機，點擊「設置->網絡->網卡2」，啓用網絡鏈接，而且選擇鏈接方式爲「僅主機(Host-Only)網絡」，界面名稱爲剛剛建立的vboxnet0。shell

這裏須要注意必定要在關閉虛擬機的狀態下配置網卡2，由於在運行過程當中的虛擬機是不容許配置網卡的。另外，這裏網卡1和網卡2的區別在於網卡1用於供給虛擬機鏈接外部網絡的，虛擬機經過網卡1鏈接VirtualBox，再經過VirtualBox鏈接外網；網卡2則至關於提供了一個路由器，供給三臺虛擬機相互之間以及與主機之間進行鏈接的。apache

打開一臺虛擬機，執行如下命令安裝vim（默認狀況下，Ubuntu是不帶vim的）：ubuntu

sudo apt-get install -y vim

執行如下命令查看當前網絡地址：vim

ifconfig

將以下配置添加到/etc/network/interfaces文件中，爲當前虛擬機配置靜態ip：服務器

auto enp0s8
iface enp0s8 inet static
address 192.168.56.4
netmask 255.255.255.0
gateway 192.168.1.1
dns-nameservers 202.120.111.3

如此按照上述方式對另外兩臺虛擬機配置網絡環境便可。

這裏三臺虛擬機的用戶與ip分別配置以下：

用戶	ip
hadoop01	192.168.56.4
hadoop02	192.168.56.3
hadoop03	192.168.56.8

3. SSH免密登陸

因爲Ubuntu沒有ssh客戶端，能夠執行以下命令爲每臺虛擬機安裝ssh客戶端：

sudo apt-get install -y openssh-server

安裝完成後執行以下命令生成ssh公鑰：

ssh-keygen -t rsa

該命令執行期間一直按回車便可。公鑰生成後會在用戶目錄~下生成一個.ssh文件夾，裏面包含id_rsa和id_rsa.pub兩個文件。

將三臺虛擬機生成的id_rsa.pub文件中的內容都複製到同一個文件中，命名爲authorized_keys，而且將該文件在每臺虛擬機的.ssh文件夾下都建立一份，該文件至關於爲其中的每一個公鑰所指代的機器提供ssh登陸的權限，因爲三臺虛擬機的authorized_keys都有各自的公鑰，於是其相互之間能夠經過ssh免密登陸。示例authorized_keys文件以下：

ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQDFez1asGIktruVI53uJHT3s8UZHoIi3X98G5mFV/7+MAs8xXeXV7HbHfi2FfJnMl/qTY/W4VZWdoFLizDBrtUDHTtigVxs5uK4re8qlvSApmqy9Xi0c+qpLKHSeFBpCSqKgngrwE/+DOFnkkTSH/hv6bIpGPTYArpOXdY203vyt6/MM/HKed0WeAcDbCdfKjke4Q2IHi6APghwjML3oD1N0rNGU28SRc8iGdg+vGp6Ajkr034VZCx7fY/BmjYhxPvJ6c5hnVSwqik05xdw2Dh+6eLkiOOnO1LknFw7KdFqa1435sOxxHhar8+ELiKu/mYzVcZMizN0AiPQGxjP96fl hadoop01@hadoop01
ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQDDCXKskhH0VFzh8KrJt3PmbR/Yxbgv5le4iEdvIPWWXAC7XDuPGrz1XH/ZYlZWauyV/LsMN3qjbeHzyfeuuNuV6Skpy/lofsIO88/XH0NFYcAxQtIQfSLwbOGVWziibOPY+gI8Bnzeb7hAYk10V2cI26hKWMpEHxOu/lCxcNuM5Y+CBs2kx2KzzvwgUjF12P6Jz4+SguCERi+Cz1JQ0YuXHBRLXGgwXMRyYUlC3KxIvyeZzI0+Gpew4nTFFXBoDIEaWn9Ma8+AcHNm9ejnO9ChSCN3zXJf7nnaXKUmi5jyQu88e+qmhDt2Pzj0E/kaKRkxso7e+sgHMBp8eXpJu/eT hadoop02@hadoop02
ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQCm4yk0TVpfhU0jSf4PMH60fOhMYrxCI9DeG/tcs0LTAUHGatuY3XRd6X3B5tShUlCvr9M1DVRgszk0Nz9VOzgqFsIXUxJLAir4dQIj+nVY0QcyTwzwbqm93YDZfaoYrO9xgEriZ6XVK78bWc8bMWpc9z35Kp4U6ytTQUufVwnsVXgAcBN6rQ/ZZFiJvCwnsZDtNsT/zVNWdrnVMKFbm+0rQHzt+jQEgfunwQeEkj8G21iPMpG9MxuHLmzOx+7XaxNLl/P2oHto8lQJgm0DYLJy6JLPa3rkd+NuBxYoqRxr1A1eC/7f3480bz+HHym5e0dSh8HuG3XJihIoR1SLm1Sd hadoop03@hadoop03

按照上述配置完成以後，可以使用以下命令在一臺虛擬機上登陸另外兩臺虛擬機（這裏hadoop02和hadoop03爲目標機器的用戶，@符號後的內容爲目標機器的ip地址）：

ssh hadoop02@192.168.56.3
ssh haddop03@192.168.56.8

這裏須要注意，如此配置以後便可按照上述方式使用ssh登陸免密登陸其餘機器，可是這種配置還不徹底夠，由於在後續使用hive和hbase的過程當中，其集羣內部是使用以下方式登陸的：

ssh hadoop02
ssh hadoop03

這種登陸方式其實能夠理解爲別名登陸，其將hadoop02指代爲hadoop02@192.168.56.3，在ssh中能夠經過配置config文件來設置別名，該config文件放置在.ssh文件夾下便可，具體的配置以下：

Host hadoop02
 hostname 192.168.56.3
 user hadoop02

Host hadoop03
 hostname 192.168.56.8
 user hadoop03

4. jdk和Hadoop安裝

須要說明的是以下jdk和hadoop安裝只是一臺虛擬機上的配置，其他兩臺虛擬機的配置方式與其相似。

將下載的jdk和Hadoop安裝包使用tar命令解壓，如：

tar -zxvf jdk-8u161-linux-x64.tar.gz

使用ln命令爲jdk和hadoop解壓包建立軟鏈接，建立軟鏈接的優勢在於若是後續須要更改jdk或者Hadoop的版本，只須要把軟鏈接指向新的解壓目錄便可，而不須要處處更改配置的環境變量，由於環境變量都是基於軟鏈接配置的：

ln -s jdk1.8.0_161 jdk
ln -s hadoop-3.0.0 hadoop

建立軟鏈接以後的目錄結構以下所示：

drwxrwxr-x  5 hadoop01 hadoop01 4096 2月  23 17:46 ./
drwxr-xr-x 19 hadoop01 hadoop01 4096 2月  23 20:46 ../
lrwxrwxrwx  1 hadoop01 hadoop01   12 2月  22 22:24 hadoop -> hadoop-3.0.0/
drwxr-xr-x 12 hadoop01 hadoop01 4096 2月  23 10:24 hadoop-3.0.0/
lrwxrwxrwx  1 hadoop01 hadoop01   12 2月  22 22:06 jdk -> jdk1.8.0_161/
drwxr-xr-x  8 hadoop01 hadoop01 4096 12月 20 08:24 jdk1.8.0_161/

編輯用戶目錄下的.profile文件，在其中加上以下內容：

export JAVA_HOME=/home/hadoop01/xufeng.zhang/jdk
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export HADOOP_HOME=/home/hadoop01/xufeng.zhang/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_CLIENT_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

保存以後，使用以下source命令才能使編輯的環境變量生效：

source ~/.profile

使用java -version命令查看配置的Java運行環境是否正常：

hadoop01@hadoop01:~/xufeng.zhang$ java -version
java version "1.8.0_161"
Java(TM) SE Runtime Environment (build 1.8.0_161-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

使用hadoop version命令查看Hadoop是否配置正確：

hadoop01@hadoop01:~/xufeng.zhang$ hadoop version
Hadoop 3.0.0
Source code repository https://git-wip-us.apache.org/repos/asf/hadoop.git -r c25427ceca461ee979d30edd7a4b0f50718e6533
Compiled by andrew on 2017-12-08T19:16Z
Compiled with protoc 2.5.0
From source with checksum 397832cb5529187dc8cd74ad54ff22
This command was run using /home/hadoop01/xufeng.zhang/hadoop-3.0.0/share/hadoop/common/hadoop-common-3.0.0.jar

對於另外兩臺虛擬機，能夠按照上述方式進行相似的配置便可。

5. Hadoop集羣環境的搭建

Hadoop集羣的配置，主要有以下幾個文件須要修改：

core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
hadoop-env.sh

core-site.xml的配置以下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://192.168.56.3:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop01/xufeng.zhang/hadoop/tmp</value>
  </property>
  <property>
    <name>fs.trash.interval</name>
    <value>10080</value>
  </property>
</configuration>

hdfs-site.xml的配置以下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.permissions.enabled</name>
    <value>false</value>
  </property>
  <property>
    <name>dfs.http.address</name>
    <value>192.168.56.3:50070</value>
  </property>
  <property>
    <name>dfs.secondary.http.address</name>
    <value>192.168.56.4:50090</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/home/hadoop01/xufeng.zhang/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/hadoop01/xufeng.zhang/hadoop/data/datanode</value>
  </property>
</configuration>

mapred-site.xml的配置

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>192.168.56.3:10020</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>192.168.56.3:19888</value>
  </property>
  <property>
    <name>mapreduce.job.ubertask.enable</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.app.mapreduce.am.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>
  <property>
    <name>mapreduce.map.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>
  <property>
    <name>mapreduce.reduce.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>
</configuration>

這裏須要注意的是，yarn.app.mapreduce.am.env，mapreduce.map.env和mapreduce.reduce.env三個參數必定要配上，不然在運行MapReduce任務時會報以下錯誤：

Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

yarn-site.xml的配置

<?xml version="1.0"?>
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>192.168.56.4</value>
  </property>
  <property>
    <name>yarn.web-proxy.address</name>
    <value>192.168.56.4:8888</value>
  </property>
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>
  <property>
    <name>yarn.application.classpath</name>
    <value>
      $HADOOP_CLIENT_CONF_DIR,
      $HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/*,
      $HADOOP_COMMON_HOME/lib/*,
      $HADOOP_HDFS_HOME/*,
      $HADOOP_HDFS_HOME/lib/*,
      $YARN_HOME/*,
      $YARN_HOME/lib/*
    </value>
  </property>
</configuration>

hadoop-env.sh的配置

這裏須要着重強調hadoop-env.sh的配置，由於該配置是比較容易掉的配置，並且在執行任務的過程當中沒有該配置則會報找不到環境變量的錯誤。該配置文件中主要須要配置JAVA_HOME參數，如：

# The java implementation to use. By default, this environment
# variable is REQUIRED on ALL platforms except OS X!
export JAVA_HOME=/home/hadoop01/xufeng.zhang/jdk

能夠看到，在該文件中已經說明了除了OS X操做系統能夠部配該變量外，其他的操做系統都須要配置。

如此，單個虛擬機上的Hadoop集羣環境配置即完成了，其他的虛擬機集羣環境配置和上述操做基本一致。這裏有一個簡便的方式，即將當前虛擬機上的配置文件拷貝到另外兩臺虛擬機，而且替換其Hadoop的配置文件，替換後只須要更改其中有關路徑的配置，如core-site.xml的hadoop.tmp.dir更改成對應虛擬機的路徑便可。

6. 集羣啓動

集羣啓動以前須要對集羣每一個節點的NameNode進行格式化，即初始化NameNode的相關存儲環境信息。格式化命令以下：

hadoop namenode -format

格式化完成以後，分別在每臺機器上執行以下命令便可啓動Hadoop，該命令是Hadoop的sbin目錄下的一個命令，在進行環境變量配置時已將其添加到了PATH裏了：

start-all.sh

若是須要關閉Hadoop，可執行以下命令：

stop-all.sh

啓動完成後可使用以下命令在每臺機器上查看Hadoop是否成功啓動了：

jps

各節點的啓動信息以下：

hadoop01@hadoop01:~/xufeng.zhang/hadoop/etc/hadoop$ jps
3680 Jps
3154 NodeManager
2627 DataNode
2788 SecondaryNameNode
3381 WebAppProxyServer
3038 ResourceManager

hadoop02@hadoop02:~$ jps
2883 Jps
2035 NameNode
2659 NodeManager
2152 DataNode

hadoop03@hadoop03:~$ jps
2083 DataNode
2759 Jps
2525 NodeManager

能夠看到這裏hadoop02機器爲主NameNode節點，hadoop01爲副NameNode節點；hadoop01，hadoop02和hadoop03都爲DataNode節點。這裏也能夠打開以下連接查看各個節點的運行狀況：

http://192.168.56.4:8088/

http://192.168.56.3:50070/

7. 結語

本文主要講解了如何經過虛擬機搭建一個有三個DataName，一個主NameNode和一個SecondaryNameNode的Hadoop集羣，而且講解了在配置過程當中可能會出現的問題。本人在集羣的搭建過程當中出現了不少問題，經過不斷的查資料，最終將集羣搭建起來併成功運行了MapReduce任務。這裏作一個總結，一是分享給閱讀者，以減小其出錯的機率，二是方便後續本身再次搭建時有資料可查。