Hadoop學習(一):徹底分佈式集羣環境搭建

1. 設置免密登陸

(1) 新建普通用戶hadoop:useradd hadoop
(2) 在主節點master上生成密鑰對,執行命令ssh-keygen -t rsa便會在home文件夾下生成 .ssh 文件以及id_rsa和id_rsa.pub文件 注意:.ssh文件夾的權限爲700,不然會影響其餘機器的免密登陸
(3) 執行命令:java

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys node

chmod 600 authorized_keys #修改文件的權限爲600 linux

(4) 將authorized_keys文件拷貝到下一個主機上後重覆上述操做。apache

scp ~/.ssh/authorized_keys hadoop@slave1:/home/hadoop/.ssh/authorized_keys vim

若拷貝出錯,則在.ssh文件 可手動創建,可是注意修改其權限爲700:chmod 700 .ssh
。。。
以此類推,最終在最後一個節點上的authorized_keys上包括了全部主機的公鑰,再將它拷貝到其餘節點上,完成免密登陸的設置。服務器

2.設置hosts文件

本人搭建的Hadoop環境包括有一個主節點和三個從節點,配置爲:一個NameNode,一個SecondaryNameNode以及兩個DataNode。
/etc/hosts添加配置以下ssh

10.0.209.122 master122 hadoop-NameNode-122
10.0.209.123 slave123 hadoop-SecondaryNameNode-123
10.0.209.124 slave124 hadoop-DataNode-124
10.0.209.125 slave125 hadoop-DataNode-125oop

在一個主機上配置完成後,將該文件拷貝到其餘節點之上。code

3.安裝Hadoop

首先,在master節點上,使用root用戶在/usr/local/文件夾下新建hadoop文件夾,並修改該文件夾對普通用戶有讀寫權限orm

mkdir /usr/local/hadoop

chmod 777 /usr/local/hadoop

使用普通用戶hadoop登陸:su hadoop
下載jdk1.8安裝包以及hadoop的安裝包,並加壓文件到/usr/local/hadoop下

wget wget http://apache.claz.org/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz

tar -xzvf hadoop-2.8.1.tar.gz -C /usr/local/hadoop

加壓後/usr/local/hadoop/文件夾下包含jdk1.8以及hadoop2.8.1,
切換到root用戶,編輯/etc/profile文件

JAVA_HOME=/usr/local/hadoop/jdk1.8.0_102

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.1

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

 

export JAVA_HOME

export PATH

export HADOOP_HOME

export CLASSPATH

保存後執行source /etc/profile 使其當即生效。
而後執行java -version和hadoop version驗證,配置安裝成功。

4.配置Hadoop集羣

(1). 配置core-site.xml

修改Hadoop核心配置文件/usr/local/hadoop/etc/hadoop/core-site.xml,經過fs.default.name指定NameNode的IP地址和端口號,經過hadoop.tmp.dir指定hadoop數據存儲的臨時文件夾。

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/hadoop-2.8.1/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://master122:9000</value>

</property>

</configuration>

特別注意:如沒有配置hadoop.tmp.dir參數,此時系統默認的臨時目錄爲:/tmp/hadoo-hadoop。而這個目錄在每次重啓後都會被刪除,必須從新執行format才行,不然會出錯。
(2).配置hdfs-site.xml

修改HDFS核心配置文件/usr/local/hadoop/etc/hadoop/hdfs-site.xml,經過dfs.replication指定HDFS的備份因子爲3,經過dfs.name.dir指定namenode節點的文件存儲目錄,經過dfs.data.dir指定datanode節點的文件存儲目錄。

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<property>

<name>dfs.name.dir</name>

<value>/usr/local/hadoop/hdfs/name</value>

</property>

<property>

<name>dfs.data.dir</name>

<value>/usr/local/hadoop/hdfs/data</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name> #配置SecondaryNameNode

<value>slave123:50090</value>

</property>

</configuration>

(3).配置mapred-site.xml

拷貝mapred-site.xml.template爲mapred-site.xml,再進行修改。

cp /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml

vi /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>mapred.job.tracker</name>

<value>http://hadoop-master:9001</value>

</property>

</configuration>

(4).配置yarn-site.xml

<!-- Site specific YARN configuration properties –>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop-master</value>

</property>

</configuration>

(5).配置masters文件

增長/usr/local/hadoop/etc/hadoop/masters文件,該文件指定namenode節點所在的服務器機器。添加namenode節點的主機名master122;不建議使用IP地址,由於IP地址可能會變化,可是主機名通常不會變化。另外,爲將SecondaryNameNode與NameNode分開,可將SecondaryNameNode節點的主機也加入到masters文件之中。

master122

slave123

(6).配置slaves節點(Master主機特有)

修改/usr/local/hadoop/etc/hadoop/slaves文件,該文件指定哪些服務器節點是datanode節點。刪除locahost,添加全部datanode節點的主機名,以下所示。

vi /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/slaves

slave123
slave124
slave125

(7).配置hadoop-env.sh文件

修改jdk的目錄,以及集羣間免密互連的端口(因爲本人修改了ssh的默認端口,而hadoop默認是以22端口鏈接,因此須要進行添加配置)

export JAVA_HOME=/usr/local/hadoop/jdk1.8.0_102 #修改jdk路徑

export HADOOP_SSH_OPTS="-p 22000" #添加ssh自定義端口

(8).配置ssh客戶端配置

因爲修改了ssh的默認端口,使得在使用ssh以及scp時都要加上-p/-P 很是的繁瑣(主要是由於懶是人類進步的階梯),因此修改ssh的客戶端配置,使其默認配置端口爲自定義端口。

vi /etc/ssh/ssh_config

Port 22000 #將源端口22修改成自定義端口22000

5.同步配置到其餘節點

第4步配置是在主節點master上進行的配置,下面要將上述配置好的jdk以及hadoop軟件包拷貝到其餘從節點上,首先在各個從節點創建文件夾/usr/local/hadoop,並將其權限設置爲777,而後用普通用戶hadoop執行命令:

scp -r /usr/local/hadoop/* slave123:/usr/local/hadoop/ &

scp -r /usr/local/hadoop/* slave124:/usr/local/hadoop/ &

scp -r /usr/local/hadoop/* slave125:/usr/local/hadoop/ &

因爲已經配置ssh客戶端的鏈接端口,因此這裏不須要特地指定,加‘&’由於hadoop/下包含jdk以及hadoop軟件包,文件很大,放入後臺執行更方便。
下面繼續將/etc/profile下的JAVA_HOME和HADOOP_HOME配置同步配置到其餘節點,至此集羣的搭建配置完成。

6.啓動集羣

在主節點master上進入到/usr/local/hadoop/hadoop-2.8.1/執行命令:

bin/hadoop namenode -format #格式化namenode,第一次啓動服務前執行的操做,之後不須要執行。

而後啓動hadoop:

sbin/start-all.sh

執行jps命令查看運行狀況
經過簡單的jps命令雖然能夠查看HDFS文件管理系統、MapReduce服務是否啓動成功,可是沒法查看到Hadoop整個集羣的運行狀態。咱們能夠經過hadoop dfsadmin -report進行查看。用該命令能夠快速定位出哪些節點掛掉了,HDFS的容量以及使用了多少,以及每一個節點的硬盤使用狀況。
中止hadoop命令:sbin/stop-all.sh

至此,hadoop集羣搭建配置完畢。

7.可能的錯誤

The authenticity of host ‘0.0.0.0 (0.0.0.0)’ can’t be established.

解決方案:關閉SELINUX

-- 關閉SELINUX
# vim /etc/selinux/config
-- 註釋掉
#SELINUX=enforcing
#SELINUXTYPE=targeted
-- 添加
SELINUX=disabled
相關文章
相關標籤/搜索