Hadoop集羣搭建

時間 2019-11-16

標籤 hadoop 集羣搭建欄目 Hadoop 简体版

原文原文鏈接

Hadoop集羣搭建java

搭建文檔：node

https://pan.baidu.com/s/1dPUHiwhcDNrMsKNIgOjj0Qlinux

1、實驗環境

虛擬機數量：3臺web

操做系統：Ubuntu 14.04shell

Hadoop：Hadoop 2.6.5apache

Java：java version "1.7.0_51"ubuntu

2、實驗內容及步驟vim

爲方便闡述，本實驗只搭建一個有三臺主機的小集羣。瀏覽器

三臺機器的具體分工命名以下：服務器

IP	主機名	功能角色
10.49.23.127	Master	namenode（控制節點）、JobTracker(工做分配)
10.49.23.134	slave1	datanode（數據節點）、TaskTracker(任務執行)
10.49.23.129	slave2	datanode（數據節點）、TaskTracker(任務執行)

（一）JDK安裝

一、解壓
tar –zxvf jdk-7u67-linux-x64.tar.gz

二、修改/etc/profile文件

（1）vim /etc/profile

文件末尾加：

export JAVA_HOME=/home/ubuntu/jdk1.7.0_51

export JRE_HOME=/home/ubuntu/jdk1.7.0_51/jre

export PATH=$PATH:/home/ubuntu/jdk1.7.0_51/bin

export CLASSPATH=./:/home/ubuntu/jdk1.7.0_51/lib

圖1-2

（2）使/etc/profile文件生效：

source /etc/profile

（3）驗證JDK安裝成功：

java –version

圖1-4

（4）按此步驟在集羣剩餘服務器中配置好JDK

（二）SSH安裝

一、單臺安裝ssh.

（1）apt-get install ssh.

（2）進入.ssh目錄下面，在每臺機器上執行：ssh-keygen -t dsa 以後一路回車，產生密鑰；若是沒有.ssh目錄則在/home文件mkdir .ssh

圖2-1

（3）完成第二步後會產生兩個文件：

id-dsa #私鑰

id-dsa.pub #公鑰

（4）在第一臺機器的目錄.ssh下執行命令，cat id_dsa.pub >> authorized_keys；此後.ssh下面會出現authorized_keys文件。

（5）而後將第一臺機器的.ssh目錄下面的authorized_keys文件拷貝到第二臺計算機的.ssh目錄下，如：scp authorized_keys slaver1:~/.ssh/

（6）再轉到第二臺機器的.ssh目錄下，會發現剛剛傳輸過來的文件-authorized_keys，而後執行命令，將第二臺計算機的公鑰也加進來，如：cat id_dsa.pub >> authorized_keys.

（7）將第二臺計算機新生成的authorized_keys傳輸第三臺計算機，將第三臺計算機的公鑰-id-rsa.pub添加到從第二臺計算機傳過來的authorized_keys裏面。

（8）依次類推，直至集羣中的最後一臺計算機。

（9）在集羣的最後一臺計算機執行完添加後，生成的authorized_keys文件就包含集羣中全部計算機的公鑰，若是之後還有機器加進到集羣中來，能夠直接添加到文件-authorized_keys。最後，將最後生成的authorized_keys複製到集羣中的每一臺計算機的.ssh目錄下，覆蓋掉以前的authorized_keys。

（10）完沉第九步後，就能夠在集羣中任意一臺計算機上，免密碼ssh登陸到其餘計算了。

（三）Hadoop搭建

1.在三臺主機上分別設置/etc/hostname：vim /etc/hostname修改成對應的master或slave。hosts文件用於定義主機名與IP地址之間的對應關係(三臺主機配置相同)。

修改/etc/hosts：vim /etc/hosts

圖3-1

三臺hadoop文件配置相同，因此配置完一臺後，能夠把整個hadoop複製過去就好了，如今開始配置master主機的hadoop文件。

2.須要配置的文件涉及到的有7個（mapred-site.xml.tmplate除外）以下圖標示部分：

mapred-site.xml默認不存在的，能夠複製相應的template文件得到。

（1）配置文件1：hadoop-env.sh

修改JAVA_HOME值以下圖：

圖3-3

（2）配置文件2：yarn-env.sh

末尾添加JAVA_HOME值以下圖：

圖3-4

（3）配置文件3：slaves(保存全部slave節點)刪除localhost寫入slave1，slave2：

圖3-5

（4）配置文件4：core-site.xml

添加配置內容以下圖：

<name>fs.default.name</name>

<value>hdfs://master:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/software/hdfs_all/tmp</value>

</property>

圖3-6

（5）配置文件5：hdfs-site.xml

<name>dfs.replication</name>

</property>

<!-- 如下兩個參數能夠不進行配置，在2.20版本中只要在core-site.xml

文件中指定了hadoop.tmp.dir如下目錄會自動生成在tmp目錄中，可是爲

了維護方便，有必要將其路徑明確指定在配置文件中 -->

<name>dfs.namenode.name.dir</name>

<value>file:/home/software/hdfs_all/dfs/name</value>

</property>

<name>dfs.namenode.data.dir</name>

<value>file:/home/software/hdfs_all/dfs/data</value>

</property>

圖3-7

（6）配置文件6：mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master:19888</value>

</property>

圖3-8

（7）配置文件7：yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

圖3-9

上面配置完畢後，基本上完成了90%的工做，剩下的就是複製。咱們能夠把整個hadoop複製過去使用命令以下：

scp -r hadoop-2.6.5/ slave1:/home/

scp -r hadoop-2.6.5/ slave2:/home/

爲方便用戶和系統管理使用hadoop、hdfs相關命令，須要在/etc/environment配置系統環境變量，使用命令:vim /etc/environment

配置內容爲hadoop目錄下的bin、sbin路徑，具體以下

圖3-10

添加完後執行生效命令：source /etc/environment

下面要作的就是啓動驗證，建議在驗證前，把以上三臺機器重啓，使其相關配置生效。

（四）啓動驗證

在maser節點格式化namenode:

hadoop namenode -format

啓動hadoop:

start-all.sh

使用Jps命令master有以下進程,說明配置正確

圖4-1

使用Jps命令slave一、slave2有以下進程,說明配置正確

圖4-2

查看分佈式文件系統：http://master:50070

圖4-3

查看MapReduce:http://master:8088

Zookeeper的安裝與配置

實驗學時1學時

虛擬機個數：3

實驗環境：Ubuntu14.04系統，3臺虛擬機

1、實驗目的

1 .可靠性：具備簡單、健壯、良好的性能，若是消息m被到一臺服務器接受，那麼它將被全部的服務器接受。
2 .實時性：Zookeeper保證客戶端將在一個時間間隔範圍內得到服務器的更新信息，或者服務器失效的信息。但因爲網絡延時等緣由，Zookeeper不能保證兩個客戶端能同時獲得剛更新的數據，若是須要最新數據，應該在讀數據以前調用sync()接口。
3.等待無關（wait-free）：慢的或者失效的client不得干預快速的client的請求，使得每一個client都能有效的等待。
4.原子性：更新只能成功或者失敗，沒有中間狀態。
5 .順序性：包括全局有序和偏序兩種：全局有序是指若是在一臺服務器上消息a在消息b前發佈，則在全部Server上消息a都將在消息b前被髮布；偏序是指若是一個消息b在消息a後被同一個發送者發佈，a必將排在b前面。

2、實驗原理

Zookeeper 是分佈式服務框架，主要是用來解決分佈式應用中常常遇到的一些數據管理問題. Zookeeper 的核心是廣播，這個機制保證了各個Server之間的同步。實現這個機制的協議叫作Zab協議。Zab協議有兩種模式，它們分別是恢復模式（選主）和廣播模式（同步）。當服務啓動或者在領導者崩潰後，Zab就進入了恢復模式，當領導者被選舉出來，且大多數Server完成了和leader的狀態同步之後，恢復模式就結束了。狀態同步保證了leader和Server具備相同的系統狀態。爲了保證事務的順序一致性，zookeeper採用了遞增的事務id號（zxid）來標識事務。全部的提議（proposal）都在被提出的時候加上了zxid。實現中zxid是一個64位的數字，它高32位是epoch用來標識leader關係是否改變，每次一個leader被選出來，它都會有一個新的epoch，標識當前屬於那個leader的統治時期。低32位用於遞增計數。

3、實驗內容

在三臺ubuntu系統中搭建好Zookeeper

4、實驗指導

1、解壓zooker-3-4-5.tar.gz

解壓：# tar -zxf zookeeper-3.4.5.tar.gz

更更名字爲zookeeper：# mv zookeeper-3.4.5 u-zookeeper

2、修改zoo.cfg配置文件

在Zookeeper集羣環境下只要一半以上的機器正常啓動了，那麼Zookeeper服務將是可用的。所以，集羣上部署Zookeeper最好使用奇數臺機器，這樣若是有5臺機器，只要3臺正常工做則服務將正常。
下面咱們將對Zookeeper的配置文件的參數進行設置

進入到u-zookeeper的conf目錄下將zoo_sample.cfg文件拷貝一份，命名爲爲:zoo.cfg

進入目錄： # cd u-zookeeper/conf

拷貝

命名：# mv zoo_sample.cfg zoo.cfg

vim zoo.cfg修改內容以下：

配置文件裏面的目錄須要本身建立

4、# vim /etc/environment

5、遠程複製分發安裝文件

接下來將上面的安裝文件拷貝到集羣中的其餘機器上對應的目錄下：

在master節點/roor/u-zookeeper/data/裏面建立myid文件

echo "1" > /roor/u-zookeeper/data/myid

同理拷貝/etc/profile，/etc/environment至slaver1,slaver2中,拷貝完成後修改對應的機器上的myid。例如修改slaver1中的myid以下：

echo "2" > /roor/u-zookeeper/data/myid

cat /roor/u-zookeeper/data/myid

結果： 2

Slaver2中的myid以下：

echo "3" > /roor/u-zookeeper/data/myid

cat /roor/u-zookeeper/data/myid

結果： 3

以上操做完成後，請全部節點服務器重啓。

6、啓動zookeeper集羣

在ZooKeeper集羣的每一個結點上，執行啓動ZooKeeper服務的腳本：zkServer.sh start

以下圖所示：

其中，QuorumPeerMain是zookeeper進程，啓動正常。

如上依次啓動了全部機器上的Zookeeper以後能夠經過ZooKeeper的腳原本查看啓動狀態，包括集羣中各個結點的角色（或是Leader，或是Follower），以下所示，是在ZooKeeper集羣中的每一個結點上查詢的結果：

經過上面狀態查詢結果可見，slaver1是集羣的Leader，其他的兩個結點是Follower

另外，能夠經過客戶端腳本，鏈接到ZooKeeper集羣上。對於客戶端來講，ZooKeeper是一個總體（ensemble），鏈接到ZooKeeper集羣實際上感受在獨享整個集羣的服務，因此，你能夠在任何一個結點上創建到服務集羣的鏈接，例如：

7、中止zookeeper進程

# zkServer.sh stop

至此，Zookeeper集羣安裝完成！

四、HBase的安裝和配置

# tar -zxvf hbase-0.96.0.tar.gz

更更名字爲hbase：mv hbase-0.96.0 /soft/hbase

4.1 配置conf/hbase-env.sh

圖4-1 配置HBase配置文件

圖4-2 配置HBase配置文件

export JAVA_HOME==/usr/lib/jvm/jdk1.7.0_51

export HBASE_CLASSPATH=~/u/etc/hadoop

export HBASE_PID_DIR=/soft/hbase/pids

修改：

export HBASE_MANAGES_ZK=false

一個分佈式運行的Hbase依賴一個zookeeper集羣。全部的節點和客戶端都必須可以訪問zookeeper。默認的狀況下Hbase會管理一個zookeep集羣，即Hbase默認自帶一個zookeep集羣。這個集羣會隨着Hbase的啓動而啓動。而在實際的商業項目中一般本身管理一個zookeeper集羣更便於優化配置提升集羣工做效率，但須要配置Hbase。須要修改conf/hbase-env.sh裏面的HBASE_MANAGES_ZK 來切換。這個值默認是true的，做用是讓Hbase啓動的時候同時也啓動zookeeper.在本實驗中，咱們採用獨立運行zookeeper集羣的方式，故將其屬性值改成false。

4.2 配置conf/hbase-site.xml

配置效果圖以下：

圖4-3 hbase-site.xml配置文件

要想運行徹底分佈式模式，加一個屬性 hbase.cluster.distributed 設置爲 true 而後把 hbase.rootdir 設置爲HDFS的NameNode的位置

hbase.rootdir：這個目錄是region server的共享目錄，用來持久化Hbase。URL須要是'徹底正確'的，還要包含文件系統的scheme

hbase.cluster.distributed ：Hbase的運行模式。false是單機模式，true是分佈式模式。若爲false,Hbase和Zookeeper會運行在同一個JVM裏面。

在hbase-site.xml配置zookeeper：當Hbase管理zookeeper的時候，你能夠經過修改zoo.cfg來配置zookeeper，對於zookeepr的配置，你至少要在 hbase-site.xml中列出zookeepr的ensemble servers，具體的字段是 hbase.zookeeper.quorum.在這裏列出Zookeeper集羣的地址列表，用逗號分割。

hbase.zookeeper.property.clientPort：ZooKeeper的zoo.conf中的配置,客戶端鏈接的端口。

hbase.zookeeper.property.dataDir：ZooKeeper的zoo.conf中的配置。

對於獨立的Zookeeper，要指明Zookeeper的host和端口。須要在 hbase-site.xml中設置。

4.3 配置conf/regionservers

寫入：slaver一、slaver2

圖4-4 配置集羣信息

在這裏列出了你但願運行的所有 HRegionServer，一行寫一個host (就像Hadoop裏面的 slaver 同樣). 列在這裏的server會隨着集羣的啓動而啓動，集羣的中止而中止。

4.4 hadoop配置文件拷入

# cp ~/u/etc/hadoop/hdfs-site.xml /soft/hbase/conf

# cp ~/u/etc/hadoop/core-site.xml /soft/hbase/conf

4.5 分發hbase

# scp -r /soft/hbase slaver1:/soft/hbase