實戰CentOS系統部署Hadoop集羣服務

時間 2019-11-06

標籤實戰 centos 系統部署 hadoop 集羣服務欄目 CentOS 简体版

原文原文鏈接

HDFS架構圖java

1、Hadoop框架簡介node

Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS爲海量的數據提供了存儲，則MapReduce爲海量的數據提供了計算。linux

HDFS(Hadoop Distribution File System)，稱爲Hadoop分佈式文件系統，主要特色：web

HDFS最小以64MB的數據塊存儲文件，相比其餘文件系統中的4KB~32KB分塊大得多。
HDFS在時延的基礎上對吞吐量進行了優化，它可以高效處理了對大文件的讀請求流，但不擅長對衆多小文件的定位請求
HDFS對普通的「一次寫入，屢次讀取」的工做負載進行了優化。
每一個存儲節點運行着一個稱爲DataNode的進程，它管理着相應主機上的全部數據塊。這些存儲節點都由一個稱爲NameNode的主進程來協調，該進程運行於一臺獨立進程上。
與磁盤陣列中設置物理冗餘來處理磁盤故障或相似策略不一樣，HDFS使用副原本處理故障，每一個由文件組成的數據塊存儲在集羣衆的多個節點，HDFS的NameNode不斷監視各個DataNode發來的報告。

一、MapReduce工做原理apache

客戶端，提交MapReduce做業；jobtracker，協調做業的運行，jobtracker是一個java應用程序，它的主類是JobTracker；tasktracker。運行做業劃分後的任務，tasktracker是一個java應用程序，TaskTracker是主類。服務器

二、Hadoop優勢網絡

Hadoop是一個可以讓用戶輕鬆架構和使用的分佈式計算平臺。用戶能夠輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有如下幾個優勢：架構

高可靠性：Hadoop按位存儲和處理數據的能力值得人們信賴。app

高擴展性：Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇能夠方便地擴展到數以千計的節點中。框架

高效性：Hadoop可以在節點之間動態地移動數據，並保證各個節點的動態平衡，所以處理速度很是快。

高容錯性：Hadoop可以自動保存數據的多個副本，而且可以自動將失敗的任務從新分配。

低成本：與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本所以會大大下降。

Hadoop帶有用Java語言編寫的框架，所以運行在 Linux 生產平臺上是很是理想的。Hadoop 上的應用程序也可使用其餘語言編寫，好比 C++。

Hadoop官網：http://hadoop.apache.org/

2、先決條件

保持Hadoop集羣每一個節點配置環境一致，安裝java，配置ssh。

實驗環境：

Platform：xen vm

OS: CentOS 6.8

Software: hadoop-2.7.3-src.tar.gz, jdk-8u101-linux-x64.rpm

Hostname	IP Address	OS version	Hadoop role	Node role
linux-node1	192.168.0.89	CentOS 6.8	Master	namenode
linux-node2	192.168.0.90	CentOS 6.8	Slave	datenode
linux-node3	192.168.0.91	CentOS 6.8	Slave	datenode
linux-node4	192.168.0.92	CentOS 6.8	Slave	datenode

#把須要的軟件包下載下來上傳到集羣的各個節點上

3、集羣的構架和安裝

一、Hosts文件設置

#Hadoop集羣中的每一個節點的hosts文件都須要修改

[root@linux-node1 ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain linux-node1
192.168.0.89 linux-node1
192.168.0.90 linux-node2
192.168.0.91 linux-node3
192.168.0.92 linux-node4

二、安裝java

#提早把下載好的JDK（rpm包）上傳到服務器上，而後安裝

rpm -ivh jdk-8u101-linux-x64.rpm
export JAVA_HOME=/usr/java/jdk1.8.0_101/
export PATH=$JAVA_HOME/bin:$PATH
# java -version
java version "1.8.0_101"
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)

三、安裝hadoop

#建立hadoop用戶，設置使用sudo

[root@linux-node1 ~]# useradd hadoop && echo hadoop | passwd --stdin hadoop
[root@linux-node1 ~]# echo "hadoopALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers
[root@linux-node1 ~]# su - hadoop
[hadoop@linux-node1 ~]$ cd /usr/local/src/
[hadoop@linux-node1src]$wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
[hadoop@linux-node1 src]$ sudo tar zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/ && cd /home/hadoop
[hadoop@linux-node1 home/hadoop]$ sudo mv hadoop-2.7.3/ hadoop
[hadoop@linux-node1 home/hadoop]$ sudo chown -R hadoop:hadoop hadoop/

#將hadoop的二進制目錄添加到PATH變量，並設置HADOOP_HOME環境變量

[hadoop@linux-node1 home/hadoop]$ export HADOOP_HOME=/home/hadoop/hadoop/
[hadoop@linux-node1 home/hadoop]$ export PATH=$HADOOP_HOME/bin:$PATH

四、建立hadoop相關目錄

[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/dfs/{name,data}
[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/tmp

#節點存儲數據備份目錄

sudo mkdir -p /data/hdfs/{name,data}
sudo chown -R hadoop:hadoop /data/

#上述操做需在hadoop集羣的每一個節點都操做

五、SSH配置

#設置集羣主節點免密碼登錄其餘節點

[hadoop@linux-node1 ~]$ ssh-keygen -t rsa
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node1@192.168.0.90
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node2@192.168.0.91
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node3@192.168.0.92

#測試ssh登陸

六、修改hadoop的配置文件

文件位置：/home/hadoop/hadoop/etc/hadoop，文件名稱：hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml

（1）配置hadoop-env.sh文件

#在hadoop安裝路徑下，進入hadoop/etc/hadoop/目錄並編輯hadoop-env.sh，修改JAVA_HOME爲JAVA的安裝路徑

[hadoop@linux-node1 home/hadoop]$ cd hadoop/etc/hadoop/
[hadoop@linux-node1 hadoop]$ egrep JAVA_HOME hadoop-env.sh
# The only required environment variable is JAVA_HOME.  All others are
# set JAVA_HOME in this file, so that it is correctly defined on
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/java/jdk1.8.0_101/

（2）配置yarn.sh文件

指定yran框架的java運行環境，該文件是yarn框架運行環境的配置文件，須要修改JAVA_HOME的位置。

[hadoop@linux-node1 hadoop]$ grep JAVA_HOME yarn-env.sh
# export JAVA_HOME=/home/y/libexec/jdk1.6.0/
export JAVA_HOME=/usr/java/jdk1.8.0_101/

（3）配置slaves文件

指定DataNode數據存儲服務器，將全部的DataNode的機器的主機名寫入到此文件中，以下：

[hadoop@linux-node1 hadoop]$ cat slaves
linux-node2
linux-node3
linux-node4

Hadoop 3種運行模式

本地獨立模式：Hadoop的全部組件，如NameNode，DataNode，Jobtracker，Tasktracker都運行在一個java進程中。

僞分佈式模式：Hadoop的各個組件都擁有一個單獨的Java虛擬機，它們之間經過網絡套接字通訊。

徹底分佈式模式：Hadoop分佈在多臺主機上，不一樣的組件根據工做性質的不一樣安裝在不通的Guest上。

#配置徹底分佈式模式

（4）修改core-site.xml文件，添加紅色區域的代碼，注意藍色標註的內容

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://linux-node1:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
</configuration>

（5）修改hdfs-site.xml文件

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>linux-node1:9001</value>
<description># 經過web界面來查看HDFS狀態 </description>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<description># 每一個Block有2個備份</description>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

（6）修改mapred-site.xml

這個是mapreduce任務的配置，因爲hadoop2.x使用了yarn框架，因此要實現分佈式部署，必須在mapreduce.framework.name屬性下配置爲yarn。mapred.map.tasks和mapred.reduce.tasks分別爲map和reduce的任務數。

[hadoop@linux-node1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>linux-node1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>linux-node1:19888</value>
</property>
</configuration>

（7）配置節點yarn-site.xml

#該文件爲yarn架構的相關配置

<?xml version="1.0"?>
<!-- mapred-site.xml  -->
<configuration>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx400m</value>
<!--Not marked as final so jobs can include JVM debuggung options -->
</property>
</configuration>
<?xml version="1.0"?>
<!-- yarn-site.xml  -->
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>linux-node1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>linux-node1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>linux-node1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>linux-node1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>linux-node1:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>8192</value>
</property>
</configuration>

七、複製hadoop到其餘節點

scp -r /home/hadoop/hadoop/ 192.168.0.90:/home/hadoop/
scp -r /home/hadoop/hadoop/ 192.168.0.91:/home/hadoop/
scp -r /home/hadoop/hadoop/ 192.168.0.92:/home/hadoop/

八、在linux-node1使用hadoop用戶初始化NameNode

/home/hadoop/hadoop/bin/hdfs namenode –format

#echo $?
#sudo yum –y install tree
# tree /home/hadoop/dfs

九、啓動hadoop

/home/hadoop/hadoop/sbin/start-dfs.sh
/home/hadoop/hadoop/sbin/stop-dfs.sh

#namenode節點上面查看進程

ps aux | grep --color namenode

#DataNode上面查看進程

ps aux | grep --color datanode

十、啓動yarn分佈式計算框架

[hadoop@linux-node1 .ssh]$ /home/hadoop/hadoop/sbin/start-yarn.sh starting yarn daemons

#NameNode節點上查看進程

ps aux | grep --color resourcemanager

#DataNode節點上查看進程

ps aux | grep --color nodemanager

注：start-dfs.sh和start-yarn.sh這兩個腳本可用start-all.sh代替

/home/hadoop/hadoop/sbin/stop-all.sh
/home/hadoop/hadoop/sbin/start-all.sh

十一、啓動jobhistory服務，查看mapreduce狀態

#在NameNode節點上

[hadoop@linux-node1 ~]$ /home/hadoop/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver
starting historyserver, logging to /home/hadoop/hadoop/logs/mapred-hadoop-historyserver-linux-node1.out

十二、查看HDFS分佈式文件系統狀態

/home/hadoop/hadoop/bin/hdfs dfsadmin –report

#查看文件塊組成，一個文件由那些塊組成

/home/hadoop/hadoop/bin/hdfs fsck / -files -blocks

1三、web頁面查看hadoop集羣狀態

查看HDFS狀態：http://192.168.0.89:50070/

查看Hadoop集羣狀態：http://192.168.0.89:8088/

免費提供最新Linux技術教程書籍，爲開源技術愛好者努力作得更多更好：http://www.linuxprobe.com/

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。