HDFS集羣中NameNode 存在單點故障(SPOF)。對於只有一個NameNode的集羣,若是NameNode機器出現意外狀況,將致使整個集羣沒法使用,直到NameNode 從新啓動。java
影響HDFS集羣不可用主要包括如下兩種狀況:一是NameNode機器宕機,將致使集羣不可用,重啓NameNode以後纔可以使用;二是計劃內的NameNode節點軟件或硬件升級,致使集羣在短期內不可用。node
爲了解決上述問題,Hadoop給出了HDFS的高可用HA方案:HDFS一般由兩個NameNode組成,一個處於active狀態,另外一個處於standby狀態。Active NameNode對外提供服務,好比處理來自客戶端的RPC請求,而Standby NameNode則不對外提供服務,僅同步Active NameNode的狀態,以便可以在它失敗時快速進行切換。linux
一個典型的HA集羣,NameNode會被配置在兩臺獨立的機器上,在任什麼時候間上,一個NameNode處於活動狀態,而另外一個NameNode處於備份狀態,活動狀態的NameNode會響應集羣中全部的客戶端,備份狀態的NameNode只是做爲一個副本,保證在必要的時候提供一個快速的轉移。web
爲了讓Standby Node與Active Node保持同步,這兩個Node都與一組稱爲JNS的互相獨立的進程保持通訊(Journal Nodes)。當Active Node上更新了namespace,它將記錄修改日誌發送給JNS的多數派。Standby noes將會從JNS中讀取這些edits,並持續關注它們對日誌的變動。Standby Node將日誌變動應用在本身的namespace中,當failover發生時,Standby將會在提高本身爲Active以前,確保可以從JNS中讀取全部的edits,即在failover發生以前Standy持有的namespace應該與Active保持徹底同步。apache
爲了支持快速failover,Standby node持有集羣中blocks的最新位置是很是必要的。爲了達到這一目的,DataNodes上須要同時配置這兩個Namenode的地址,同時和它們都創建心跳連接,並把block位置發送給它們。vim
任什麼時候刻,只有一個Active NameNode是很是重要的,不然將會致使集羣操做的混亂,那麼兩個NameNode將會分別有兩種不一樣的數據狀態,可能會致使數據丟失,或者狀態異常,這種狀況一般稱爲「split-brain」(腦裂,三節點通信阻斷,即集羣中不一樣的Datanodes卻看到了兩個Active NameNodes)。對於JNS而言,任什麼時候候只容許一個NameNode做爲writer;在failover期間,原來的Standby Node將會接管Active的全部職能,並負責向JNS寫入日誌記錄,這就阻止了其餘NameNode基於處於Active狀態的問題。緩存
基於QJM的HDFS HA方案如上圖所示,其處理流程爲:集羣啓動後一個NameNode處於Active狀態,並提供服務,處理客戶端和DataNode的請求,並把editlog寫到本地和share editlog(這裏是QJM)中。另一個NameNode處於Standby狀態,它啓動的時候加載fsimage,而後週期性的從share editlog中獲取editlog,保持與Active節點的狀態同步。爲了實現Standby在Active掛掉後迅速提供服務,須要DataNode同時向兩個NameNode彙報,使得Stadnby保存block to DataNode信息,由於NameNode啓動中最費時的工做是處理全部DataNode的blockreport。爲了實現熱備,增長FailoverController和Zookeeper,FailoverController與Zookeeper通訊,經過Zookeeper選舉機制,FailoverController經過RPC讓NameNode轉換爲Active或Standby。安全
NameNode機器:兩臺配置對等的物理機器,它們分別運行Active和Standby Node。bash
JouralNode機器:運行JouralNodes的機器。JouralNode守護進程至關的輕量級,能夠和Hadoop的其餘進程部署在一塊兒,好比NameNode、DataNode、ResourceManager等,至少須要3個且爲奇數,若是你運行了N個JNS,那麼它能夠容許(N-1)/2個JNS進程失效而且不影響工做。服務器
在HA集羣中,Standby NameNode還會對namespace進行checkpoint操做(繼承Backup Namenode的特性),所以不須要在HA集羣中運行SecondaryNameNode、CheckpointNode或者BackupNode。
須要在hdfs.xml中配置以下參數:
dfs.nameservices:HDFS NN的邏輯名稱,例如myhdfs。
dfs.ha.namenodes.myhdfs:給定服務邏輯名稱myhdfs的節點列表,如nn一、nn2。
dfs.namenode.rpc-address.myhdfs.nn1:myhdfs中nn1對外服務的RPC地址。
dfs.namenode.http-address.myhdfs.nn1:myhdfs中nn1對外服務http地址。
dfs.namenode.shared.edits.dir:JournalNode的服務地址。
dfs.journalnode.edits.dir:JournalNode在本地磁盤存放數據的位置。
dfs.ha.automatic-failover.enabled:是否開啓NameNode失敗自動切換。
dfs.ha.fencing.methods :配置隔離機制,一般爲sshfence。
HDFS的自動故障轉移主要由Zookeeper和ZKFC兩個組件組成。
Zookeeper集羣做用主要有:一是故障監控。每一個NameNode將會和Zookeeper創建一個持久session,若是NameNode失效,那麼此session將會過時失效,此後Zookeeper將會通知另外一個Namenode,而後觸發Failover;二是NameNode選舉。ZooKeeper提供了簡單的機制來實現Acitve Node選舉,若是當前Active失效,Standby將會獲取一個特定的排他鎖,那麼獲取鎖的Node接下來將會成爲Active。
ZKFC是一個Zookeeper的客戶端,它主要用來監測和管理NameNodes的狀態,每一個NameNode機器上都會運行一個ZKFC程序,它的職責主要有:一是健康監控。ZKFC間歇性的ping NameNode,獲得NameNode返回狀態,若是NameNode失效或者不健康,那麼ZKFS將會標記其爲不健康;二是Zookeeper會話管理。當本地NaneNode運行良好時,ZKFC將會持有一個Zookeeper session,若是本地NameNode爲Active,它同時也持有一個「排他鎖」znode,若是session過時,那麼次lock所對應的znode也將被刪除;三是選舉。當集羣中其中一個NameNode宕機,Zookeeper會自動將另外一個激活。
YARN的HA架構和HDFSHA相似,須要啓動兩個ResourceManager,這兩個ResourceManager會向ZooKeeper集羣註冊,經過ZooKeeper管理它們的狀態(Active或Standby)並進行自動故障轉移。
根據Hadoop的HA架構分析,規劃整個集羣由5臺主機組成,具體狀況以下表所示:
主機名 |
IP地址 |
安裝的軟件 |
JPS |
hadoop-master1 |
172.16.20.81 |
Jdk/hadoop |
Namenode/zkfc/resourcemanager/ JobHistoryServer |
hadoop-master2 |
172.16.20.82 |
Jdk/hadoop |
Namenode/zkfc/resourcemanager/ WebProxyServer |
hadoop-slave1 |
172.16.20.83 |
Jkd/hadoop/zookeepe |
Datanode/journalnode/nodemanager/ quorumPeerMain |
hadoop-slave2 |
172.16.20.84 |
Jkd/hadoop/zookeeper |
Datanode/journalnode/nodemanager/ quorumPeerMain |
hadoop-slave3 |
172.16.20.85 |
Jkd/hadoop/zookeeper |
Datanode/journalnode/nodemanager/ quorumPeerMain |
須要說明如下幾點:
HDFS HA一般由兩個NameNode組成,一個處於Active狀態,另外一個處於Standby狀態。Active NameNode對外提供服務,而Standby NameNode則不對外提供服務,僅同步Active NameNode的狀態,以便可以在它失敗時快速進行切換。
Hadoop 2.0官方提供了兩種HDFS HA的解決方案,一種是NFS,另外一種是QJM。這裏咱們使用簡單的QJM。在該方案中,主備NameNode之間經過一組JournalNode同步元數據信息,一條數據只要成功寫入多數JournalNode即認爲寫入成功。一般配置奇數個JournalNode,這裏還配置了一個Zookeeper集羣,用於ZKFC故障轉移,當Active NameNode掛掉了,會自動切換Standby NameNode爲Active狀態。
YARN的ResourceManager也存在單點故障問題,這個問題在hadoop-2.4.1獲得瞭解決:有兩個ResourceManager,一個是Active,一個是Standby,狀態由zookeeper進行協調。
YARN框架下的MapReduce能夠開啓JobHistoryServer來記錄歷史任務信息,不然只能查看當前正在執行的任務信息。
Zookeeper的做用是負責HDFS中NameNode主備節點的選舉,和YARN框架下ResourceManaer主備節點的選舉。
操做系統:CentOS Linux release 7.0.1406
JDK:Java(TM)SE Runtime Environment (build 1.7.0_79-b15)
Hadoop:Hadoop 2.6.0-cdh5.7.1
ZooKeeper:zookeeper-3.4.5-cdh5.7.1
集羣各節點進行以下修改配置:
// 切換root用戶
$ su root
// 建立hadoop用戶組
# groupadd hadoop
// 在hadoop用戶組中建立hadoop用戶
# useradd -g hadoop hadoop
// 修改用戶hadoop密碼
# passwd hadoop
// 修改sudoers配置文件給hadoop用戶添加sudo權限
# vim /etc/sudoers
hadoop ALL=(ALL) ALL
// 測試是否添加權限成功
# exit
$ sudo ls /root
// 切換root用戶
$ su root
// 修改本機IP地址
# vim /etc/sysconfig/network-scripts/ifcfg-eth0
// 重啓網絡服務
# service network restart
// 修改主機名
# hostnamectl set-hostname 主機名
// 查看主機名
# hostnamectl status
// 切換root用戶
$ su root
// 編輯hosts文件
# vim /etc/hosts
172.16.20.81 hadoop-master1
172.16.20.82 hadoop-master2
172.16.20.83 hadoop-slave1
172.16.20.84 hadoop-slave2
172.16.20.85 hadoop-slave3
// 切換root用戶
$ su root
// 中止firewall防火牆
# systemctl stop firewalld.service
// 禁止firewall開機啓動
# systemctl disable firewalld.service
// 開機關閉Selinux
# vim /etc/selinux/config
SELINUX=disabled
// 重啓機器後root用戶查看Selinux狀態
# getenforce
// 在hadoop-master1節點生成SSH密鑰對
$ ssh-keygen -t rsa
// 將公鑰複製到集羣全部節點機器上
$ ssh-copy-id hadoop-master1
$ ssh-copy-id hadoop-master2
$ ssh-copy-id hadoop-slave1
$ ssh-copy-id hadoop-slave2
$ ssh-copy-id hadoop-slave3
// 經過ssh登陸各節點測試是否免密碼登陸成功
$ ssh hadoop-master2
備註:在其他節點上執行一樣的操做,確保集羣中任意節點均可以ssh免密碼登陸到其它各節點。
// 卸載系統自帶的openjdk
$ suroot
# rpm-qa | grep java
# rpm-e --nodeps java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
# rpm-e --nodeps java-1.7.0-openjdk-headless-1.7.0.75-2.5.4.2.el7_0.x86_64
# rpm-e --nodeps tzdata-java-2015a-1.el7_0.noarch
# exit
// 解壓jdk安裝包
$ tar-xvf jdk-7u79-linux-x64.tar.gz
// 刪除安裝包
$ rmjdk-7u79-linux-x64.tar.gz
// 修改用戶環境變量
$ cd ~
$ vim.bash_profile
exportJAVA_HOME=/home/hadoop/app/jdk1.7.0_79
exportPATH=$PATH:$JAVA_HOME/bin
// 使修改的環境變量生效
$ source.bash_profile
// 測試jdk是否安裝成功
$ java-version
若是集羣節點時間不一樣步,可能會出現節點宕機或引起其它異常問題,因此在生產環境中通常經過配置NTP服務器實現集羣時間同步。本集羣在hadoop-master1節點設置ntp服務器,具體方法以下:
// 切換root用戶
$ su root
// 查看是否安裝ntp
# rpm -qa | grep ntp
// 安裝ntp
# yum install -y ntp
// 配置時間服務器
# vim /etc/ntp.conf
# 禁止全部機器鏈接ntp服務器
restrict default ignore
# 容許局域網內的全部機器鏈接ntp服務器
restrict 172.16.20.0 mask 255.255.255.0 nomodify notrap
# 使用本機做爲時間服務器
server 127.127.1.0
// 啓動ntp服務器
# service ntpd start
// 設置ntp服務器開機自動啓動
# chkconfig ntpd on
集羣其它節點經過執行crontab定時任務,天天在指定時間向ntp服務器進行時間同步,方法以下:
// 切換root用戶
$ su root
// 執行定時任務,天天00:00向服務器同步時間,並寫入日誌
# crontab -e
0 0 * * * /usr/sbin/ntpdate hadoop-master1>> /home/hadoop/ntpd.log
// 查看任務
# crontab -l
Zookeeper是一個開源分佈式協調服務,其獨特的Leader-Follower集羣結構,很好的解決了分佈式單點問題。目前主要用於諸如:統一命名服務、配置管理、鎖服務、集羣管理等場景。大數據應用中主要使用Zookeeper的集羣管理功能。
本集羣使用zookeeper-3.4.5-cdh5.7.1版本。首先在Hadoop-slave1節點安裝Zookeeper,方法以下:
// 新建目錄
$ mkdir app/cdh
// 解壓zookeeper安裝包
$ tar -xvf zookeeper-3.4.5-cdh5.7.1.tar.gz -C app/cdh/
// 刪除安裝包
$ rm -rf zookeeper-3.4.5-cdh5.7.1.tar.gz
// 配置用戶環境變量
$ vim .bash_profile
export ZOOKEEPER_HOME=/home/hadoop/app/cdh/zookeeper-3.4.5-cdh5.7.1
export PATH=$PATH:$ZOOKEEPER_HOME/bin
// 使修改的環境變量生效
$ source.bash_profile
// 修改zookeeper的配置文件
$ cd app/cdh/zookeeper-3.4.5-cdh5.7.1/conf/
$ cp zoo_sample.cfg zoo.cfg
$ vim zoo.cfg
# 客戶端心跳時間(毫秒)
tickTime=2000
# 容許心跳間隔的最大時間
initLimit=10
# 同步時限
syncLimit=5
# 數據存儲目錄
dataDir=/home/hadoop/app/cdh/zookeeper-3.4.5-cdh5.7.1/data
# 數據日誌存儲目錄
dataLogDir=/home/hadoop/app/cdh/zookeeper-3.4.5-cdh5.7.1/data/log
# 端口號
clientPort=2181
# 集羣節點和服務端口配置
server.1=hadoop-slave1:2888:3888
server.2=hadoop-slave2:2888:3888
server.3=hadoop-slave3:2888:3888
# 如下爲優化配置
# 服務器最大鏈接數,默認爲10,改成0表示無限制
maxClientCnxns=0
# 快照數
autopurge.snapRetainCount=3
# 快照清理時間,默認爲0
autopurge.purgeInterval=1
// 建立zookeeper的數據存儲目錄和日誌存儲目錄
$ cd ..
$ mkdir -p data/log
// 在data目錄中建立一個文件myid,輸入內容爲1
$ echo "1" >> data/myid
// 修改zookeeper的日誌輸出路徑(注意CDH版與原生版配置文件不一樣)
$ vim libexec/zkEnv.sh
if [ "x${ZOO_LOG_DIR}" = "x" ]
then
ZOO_LOG_DIR="$ZOOKEEPER_HOME/logs"
fi
if [ "x${ZOO_LOG4J_PROP}" = "x" ]
then
ZOO_LOG4J_PROP="INFO,ROLLINGFILE"
fi
// 修改zookeeper的日誌配置文件
$ vim conf/log4j.properties
zookeeper.root.logger=INFO,ROLLINGFILE
// 建立日誌目錄
$ mkdir logs
將hadoop-slave1節點上的Zookeeper目錄同步到hadoop-slave2和hadoop-slave3節點,並修改Zookeeper的數據文件。此外,不要忘記設置用戶環境變量。
// 在hadoop-slave1中將zookeeper目錄複製到其它節點
$ cd ~
$ scp -r app/cdh/zookeeper-3.4.5-cdh5.7.1hadoop-slave2:/home/hadoop/app/cdh
$ scp -r app/cdh/zookeeper-3.4.5-cdh5.7.1 hadoop-slave3:/home/hadoop/app/cdh
//在hadoop-slave2中修改data目錄中的myid文件
$ echo "2" >app/cdh/zookeeper-3.4.5-cdh5.7.1/data/myid
//在hadoop-slave3中修改data目錄中的myid文件
$ echo "3" >app/cdh/zookeeper-3.4.5-cdh5.7.1/data/myid
最後,在安裝了Zookeeper的各節點上啓動Zookeeper,並查看節點狀態,方法以下:
// 啓動
$ zkServer.sh start
// 查看狀態
$ zkServer.sh status
// 關閉
$ zkServer.sh stop
// 在hadoop-master1節點解壓hadoop安裝包
$ tar-xvf hadoop-2.6.0-cdh5.7.1.tar.gz -C /home/hadoop/app/cdh/
// 刪除安裝包
$ rmhadoop-2.6.0-cdh5.7.1.tar.gz
// 修改hadoop-env.sh文件
$ cd/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/etc/hadoop
$ vimhadoop-env.sh
exportJAVA_HOME=/home/hadoop/app/jdk1.7.0_79
// 配置core-site.xml文件
$ vim core-site.xml
<configuration> <!-- 指定hdfs的nameservices名稱爲mycluster,與hdfs-site.xml的HA配置相同 --> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </property> <!-- 指定緩存文件存儲的路徑 --> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/data/tmp</value> </property> <!-- 配置hdfs文件被永久刪除前保留的時間(單位:分鐘),默認值爲0代表垃圾回收站功能關閉 --> <property> <name>fs.trash.interval</name> <value>1440</value> </property> <!-- 指定zookeeper地址,配置HA時須要 --> <property> <name>ha.zookeeper.quorum</name> <value>hadoop-slave1:2181,hadoop-slave2:2181,hadoop-slave3:2181</value> </property> </configuration>
// 配置hdfs-site.xml文件
$ vim hdfs-site.xml
<configuration> <!-- 指定hdfs元數據存儲的路徑 --> <property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/data/namenode</value> </property> <!-- 指定hdfs數據存儲的路徑 --> <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/data/datanode</value> </property> <!-- 數據備份的個數 --> <property> <name>dfs.replication</name> <value>3</value> </property> <!-- 關閉權限驗證 --> <property> <name>dfs.permissions.enabled</name> <value>false</value> </property> <!-- 開啓WebHDFS功能(基於REST的接口服務) --> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <!-- //////////////如下爲HDFS HA的配置////////////// --> <!-- 指定hdfs的nameservices名稱爲mycluster --> <property> <name>dfs.nameservices</name> <value>mycluster</value> </property> <!-- 指定mycluster的兩個namenode的名稱分別爲nn1,nn2 --> <property> <name>dfs.ha.namenodes.mycluster</name> <value>nn1,nn2</value> </property> <!-- 配置nn1,nn2的rpc通訊端口 --> <property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>hadoop-master1:8020</value> </property> <property> <name>dfs.namenode.rpc-address.mycluster.nn2</name> <value>hadoop-master2:8020</value> </property> <!-- 配置nn1,nn2的http通訊端口 --> <property> <name>dfs.namenode.http-address.mycluster.nn1</name> <value>hadoop-master1:50070</value> </property> <property> <name>dfs.namenode.http-address.mycluster.nn2</name> <value>hadoop-master2:50070</value> </property> <!-- 指定namenode元數據存儲在journalnode中的路徑 --> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://hadoop-slave1:8485;hadoop-slave2:8485;hadoop-slave3:8485/mycluster</value> </property> <!-- 指定journalnode日誌文件存儲的路徑 --> <property> <name>dfs.journalnode.edits.dir</name> <value>/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/data/journal</value> </property> <!-- 指定HDFS客戶端鏈接active namenode的java類 --> <property> <name>dfs.client.failover.proxy.provider.mycluster</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property> <!-- 配置隔離機制爲ssh --> <property> <name>dfs.ha.fencing.methods</name> <value>sshfence</value> </property> <!-- 指定祕鑰的位置 --> <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/home/hadoop/.ssh/id_rsa</value> </property> <!-- 開啓自動故障轉移 --> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property> </configuration>
// 配置mapred-site.xml文件
$ vim mapred-site.xml
<configuration> <!-- 指定MapReduce計算框架使用YARN --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <!-- 指定jobhistory server的rpc地址 --> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop-master1:10020</value> </property> <!-- 指定jobhistory server的http地址 --> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop-master1:19888</value> </property> <!-- 開啓uber模式(針對小做業的優化) --> <property> <name>mapreduce.job.ubertask.enable</name> <value>true</value> </property> <!-- 配置啓動uber模式的最大map數 --> <property> <name>mapreduce.job.ubertask.maxmaps</name> <value>9</value> </property> <!-- 配置啓動uber模式的最大reduce數 --> <property> <name>mapreduce.job.ubertask.maxreduces</name> <value>1</value> </property> </configuration>
// 配置yarn-site.xml文件
$ vim yarn-site.xml
<configuration> <!-- NodeManager上運行的附屬服務,需配置成mapreduce_shuffle纔可運行MapReduce程序 --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- 配置Web Application Proxy安全代理(防止yarn被攻擊) --> <property> <name>yarn.web-proxy.address</name> <value>hadoop-master2:8888</value> </property> <!-- 開啓日誌 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 配置日誌刪除時間爲7天,-1爲禁用,單位爲秒 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> <!-- 修改日誌目錄 --> <property> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/logs</value> </property> <!-- 配置nodemanager可用的資源內存 --> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value> </property> <!-- 配置nodemanager可用的資源CPU --> <property> <name>yarn.nodemanager.resource.cpu-vcores</name> <value>2</value> </property> <!-- //////////////如下爲YARN HA的配置////////////// --> <!-- 開啓YARN HA --> <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> </property> <!-- 啓用自動故障轉移 --> <property> <name>yarn.resourcemanager.ha.automatic-failover.enabled</name> <value>true</value> </property> <!-- 指定YARN HA的名稱 --> <property> <name>yarn.resourcemanager.cluster-id</name> <value>yarncluster</value> </property> <!-- 指定兩個resourcemanager的名稱 --> <property> <name>yarn.resourcemanager.ha.rm-ids</name> <value>rm1,rm2</value> </property> <!-- 配置rm1,rm2的主機 --> <property> <name>yarn.resourcemanager.hostname.rm1</name> <value>hadoop-master1</value> </property> <property> <name>yarn.resourcemanager.hostname.rm2</name> <value>hadoop-master2</value> </property> <!-- 配置YARN的http端口 --> <property> <name>yarn.resourcemanager.webapp.address.rm1</name> <value>hadoop-master1:8088</value> </property> <property> <name>yarn.resourcemanager.webapp.address.rm2</name> <value>hadoop-master2:8088</value> </property> <!-- 配置zookeeper的地址 --> <property> <name>yarn.resourcemanager.zk-address</name> <value>hadoop-slave1:2181,hadoop-slave2:2181,hadoop-slave3:2181</value> </property> <!-- 配置zookeeper的存儲位置 --> <property> <name>yarn.resourcemanager.zk-state-store.parent-path</name> <value>/rmstore</value> </property> <!-- 開啓yarn resourcemanager restart --> <property> <name>yarn.resourcemanager.recovery.enabled</name> <value>true</value> </property> <!-- 配置resourcemanager的狀態存儲到zookeeper中 --> <property> <name>yarn.resourcemanager.store.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value> </property> <!-- 開啓yarn nodemanager restart --> <property> <name>yarn.nodemanager.recovery.enabled</name> <value>true</value> </property> <!-- 配置nodemanager IPC的通訊端口 --> <property> <name>yarn.nodemanager.address</name> <value>0.0.0.0:45454</value> </property> </configuration>
// 配置slaves文件
$ vimslaves
hadoop-slave1
hadoop-slave2
hadoop-slave3
// 建立配置文件中涉及的目錄
$ cd/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/
$ mkdir-p data/tmp
$ mkdir-p data/journal
$ mkdir-p data/namenode
$ mkdir-p data/datanode
// 將hadoop工做目錄同步到集羣其它節點
$ scp-r /home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/hadoop-master2:/home/hadoop/app/cdh/
scp -r/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/ hadoop-slave1:/home/hadoop/app/cdh/
scp -r/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/ hadoop-slave2:/home/hadoop/app/cdh/
scp -r/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/ hadoop-slave3:/home/hadoop/app/cdh/
// 在集羣各節點上修改用戶環境變量
$ vim .bash_profile
export HADOOP_HOME=/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
// 使修改的環境變量生效
$ source.bash_profile
// 解決本地庫文件不存在的問題
在apache官網下載hadoop-2.6.0.tar.gz,解壓後將lib/native下全部文件複製到$HADOOP_HOME/lib/native中。
// 啓動zookeeper集羣(分別在slave一、slave2和slave3上執行)
$ zkServer.shstart
// 格式化ZKFC(在master1上執行)
$ hdfszkfc -formatZK
// 啓動journalnode(分別在slave一、slave2和slave3上執行)
$ hadoop-daemon.shstart journalnode
// 格式化HDFS(在master1上執行)
$ hdfsnamenode -format
// 將格式化後master1節點hadoop工做目錄中的元數據目錄複製到master2節點
$ scp-r app/cdh/hadoop-2.6.0-cdh5.7.1/data/namenode/*hadoop-master2:/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1/data/namenode/
// 初始化完畢後可關閉journalnode(分別在slave一、slave2和slave3上執行)
$ hadoop-daemon.shstop journalnode
// 啓動zookeeper集羣(分別在slave一、slave2和slave3執行)
$ zkServer.shstart
// 啓動HDFS(在master1執行)
$ start-dfs.sh
備註:此命令分別在master1/master2節點啓動了NameNode和ZKFC,分別在slave1/slave2/slave3節點啓動了DataNode和JournalNode,以下圖所示。
// 啓動YARN(在master2執行)
$ start-yarn.sh
備註:此命令在master2節點啓動了ResourceManager,分別在slave1/slave2/slave3節點啓動了NodeManager。
// 啓動YARN的另外一個ResourceManager(在master1執行,用於容災)
$ yarn-daemon.sh start resourcemanager
// 啓動YARN的安全代理(在master2執行)
$ yarn-daemon.sh start proxyserver
備註:proxyserver充當防火牆的角色,能夠提升訪問集羣的安全性
// 啓動YARN的歷史任務服務(在master1執行)
$ mr-jobhistory-daemon.sh starthistoryserver
備註:yarn-daemon.sh start historyserver已被棄用;CDH版本彷佛有個問題,即mapred-site.xml配置的mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address參數彷佛不起做用,實際對應的端口號是10200和8188,並且部須要配置就能夠在任意節點上開啓歷史任務服務。
hadoop-master1開啓了NameNode、ResourceManager、HistoryServer和ZKFC,以下圖所示:
hadoop-master2開啓了NameNode、ResourceManager、ProxyServer和ZKFC,以下圖所示:
hadoop-slave一、hadoop-slave2和hadoop-slave3分別開啓了DataNode、JournalNode、NodeManager和ZooKeeper,以下圖所示:
下圖爲http://hadoop-master1:50070,可看到NameNode爲active狀態:
下圖爲http://hadoop-master2:50070,可看到NameNode爲standby狀態:
HDFS還有一個隱藏的UI頁面http://hadoop-master1:50070/dfshealth.jsp比較好用:
下圖爲http://hadoop-master2:8088,可看到ResourceManager爲active狀態:
下圖爲http://hadoop-master1:8088,可看到ResourceManager爲standby狀態,它會自動跳轉到http://hadoop-master2:8088:
下圖爲http://hadoop-master1:19888,可查看歷史任務信息:
// 向HDFS上傳數據
$ hadoopfs -put webcount.txt /input
// 查看HDFS上的數據
$ hadoopfs -ls /input
$ hadoopfs -cat /input/webcount.txt
// 向YARN提交MapReduce任務,該任務用於分析網站日誌文件webcount.txt統計每小時的點擊次數
$ hadoopjar mr-webcount-0.0.1-SNAPSHOT.jar com.mr.demo.WebCountDriver/input/webcount.txt /output/webcount 1 1
// 在HDFS查看結果
$ hadoopfs -ls /output/webcount
$ hadoopfs -cat /output/webcount/part-r-00000
// 經過Web UI查看任務信息和歷史任務信息