Hadoop學習（一）：徹底分佈式集羣環境搭建

時間 2019-12-08

原文原文鏈接

1. 設置免密登陸

(1) 新建普通用戶hadoop：useradd hadoop
(2) 在主節點master上生成密鑰對，執行命令ssh-keygen -t rsa便會在home文件夾下生成 .ssh 文件以及id_rsa和id_rsa.pub文件 注意：.ssh文件夾的權限爲700，不然會影響其餘機器的免密登陸
(3) 執行命令：java

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys node

chmod 600 authorized_keys #修改文件的權限爲600 linux

(4) 將authorized_keys文件拷貝到下一個主機上後重覆上述操做。apache

scp ~/.ssh/authorized_keys hadoop@slave1:/home/hadoop/.ssh/authorized_keys vim

若拷貝出錯，則在.ssh文件可手動創建，可是注意修改其權限爲700：chmod 700 .ssh
。。。
以此類推，最終在最後一個節點上的authorized_keys上包括了全部主機的公鑰，再將它拷貝到其餘節點上，完成免密登陸的設置。服務器

2.設置hosts文件

本人搭建的Hadoop環境包括有一個主節點和三個從節點，配置爲：一個NameNode，一個SecondaryNameNode以及兩個DataNode。
/etc/hosts添加配置以下ssh

10.0.209.122 master122 hadoop-NameNode-122
10.0.209.123 slave123 hadoop-SecondaryNameNode-123
10.0.209.124 slave124 hadoop-DataNode-124
10.0.209.125 slave125 hadoop-DataNode-125oop

在一個主機上配置完成後，將該文件拷貝到其餘節點之上。code

3.安裝Hadoop

首先，在master節點上，使用root用戶在/usr/local/文件夾下新建hadoop文件夾，並修改該文件夾對普通用戶有讀寫權限orm

mkdir /usr/local/hadoop

chmod 777 /usr/local/hadoop

使用普通用戶hadoop登陸：su hadoop
下載jdk1.8安裝包以及hadoop的安裝包，並加壓文件到/usr/local/hadoop下

wget wget http://apache.claz.org/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz

tar -xzvf hadoop-2.8.1.tar.gz -C /usr/local/hadoop

加壓後/usr/local/hadoop/文件夾下包含jdk1.8以及hadoop2.8.1，
切換到root用戶，編輯/etc/profile文件

JAVA_HOME=/usr/local/hadoop/jdk1.8.0_102

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.1

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export JAVA_HOME

export PATH

export HADOOP_HOME

export CLASSPATH

保存後執行source /etc/profile 使其當即生效。
而後執行java -version和hadoop version驗證，配置安裝成功。

4.配置Hadoop集羣

(1). 配置core-site.xml

修改Hadoop核心配置文件/usr/local/hadoop/etc/hadoop/core-site.xml，經過fs.default.name指定NameNode的IP地址和端口號，經過hadoop.tmp.dir指定hadoop數據存儲的臨時文件夾。

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/hadoop-2.8.1/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://master122:9000</value>

</property>

</configuration>

特別注意：如沒有配置hadoop.tmp.dir參數，此時系統默認的臨時目錄爲：/tmp/hadoo-hadoop。而這個目錄在每次重啓後都會被刪除，必須從新執行format才行，不然會出錯。

(2).配置hdfs-site.xml

修改HDFS核心配置文件/usr/local/hadoop/etc/hadoop/hdfs-site.xml，經過dfs.replication指定HDFS的備份因子爲3，經過dfs.name.dir指定namenode節點的文件存儲目錄，經過dfs.data.dir指定datanode節點的文件存儲目錄。

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<property>

<name>dfs.name.dir</name>

<value>/usr/local/hadoop/hdfs/name</value>

</property>

<property>

<name>dfs.data.dir</name>

<value>/usr/local/hadoop/hdfs/data</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name> #配置SecondaryNameNode

<value>slave123:50090</value>

</property>

</configuration>

(3).配置mapred-site.xml

拷貝mapred-site.xml.template爲mapred-site.xml，再進行修改。

cp /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml

vi /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>mapred.job.tracker</name>

<value>http://hadoop-master:9001</value>

</property>

</configuration>

(4).配置yarn-site.xml

<!-- Site specific YARN configuration properties –>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop-master</value>

</property>

</configuration>

(5).配置masters文件

增長/usr/local/hadoop/etc/hadoop/masters文件，該文件指定namenode節點所在的服務器機器。添加namenode節點的主機名master122；不建議使用IP地址，由於IP地址可能會變化，可是主機名通常不會變化。另外，爲將SecondaryNameNode與NameNode分開，可將SecondaryNameNode節點的主機也加入到masters文件之中。

master122

slave123

(6).配置slaves節點（Master主機特有）

修改/usr/local/hadoop/etc/hadoop/slaves文件，該文件指定哪些服務器節點是datanode節點。刪除locahost，添加全部datanode節點的主機名，以下所示。

vi /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/slaves

slave123
slave124
slave125

(7).配置hadoop-env.sh文件

修改jdk的目錄，以及集羣間免密互連的端口（因爲本人修改了ssh的默認端口，而hadoop默認是以22端口鏈接，因此須要進行添加配置）

export JAVA_HOME=/usr/local/hadoop/jdk1.8.0_102 #修改jdk路徑

export HADOOP_SSH_OPTS="-p 22000" #添加ssh自定義端口

(8).配置ssh客戶端配置

因爲修改了ssh的默認端口，使得在使用ssh以及scp時都要加上-p/-P 很是的繁瑣（主要是由於懶，懶是人類進步的階梯），因此修改ssh的客戶端配置，使其默認配置端口爲自定義端口。

vi /etc/ssh/ssh_config

Port 22000 #將源端口22修改成自定義端口22000

5.同步配置到其餘節點

第4步配置是在主節點master上進行的配置，下面要將上述配置好的jdk以及hadoop軟件包拷貝到其餘從節點上，首先在各個從節點創建文件夾/usr/local/hadoop，並將其權限設置爲777，而後用普通用戶hadoop執行命令：

scp -r /usr/local/hadoop/* slave123:/usr/local/hadoop/ &

scp -r /usr/local/hadoop/* slave124:/usr/local/hadoop/ &

scp -r /usr/local/hadoop/* slave125:/usr/local/hadoop/ &

因爲已經配置ssh客戶端的鏈接端口，因此這裏不須要特地指定，加‘&’由於hadoop/下包含jdk以及hadoop軟件包，文件很大，放入後臺執行更方便。
下面繼續將/etc/profile下的JAVA_HOME和HADOOP_HOME配置同步配置到其餘節點，至此集羣的搭建配置完成。

6.啓動集羣

在主節點master上進入到/usr/local/hadoop/hadoop-2.8.1/執行命令：

bin/hadoop namenode -format #格式化namenode，第一次啓動服務前執行的操做，之後不須要執行。

而後啓動hadoop:

sbin/start-all.sh

執行jps命令查看運行狀況
經過簡單的jps命令雖然能夠查看HDFS文件管理系統、MapReduce服務是否啓動成功，可是沒法查看到Hadoop整個集羣的運行狀態。咱們能夠經過hadoop dfsadmin -report進行查看。用該命令能夠快速定位出哪些節點掛掉了，HDFS的容量以及使用了多少，以及每一個節點的硬盤使用狀況。
中止hadoop命令：sbin/stop-all.sh

至此，hadoop集羣搭建配置完畢。