Hadoop（三）手把手教你搭建Hadoop全分佈式集羣

時間 2019-11-13

標籤 hadoop 手把手搭建分佈式集羣欄目 Hadoop 简体版

原文原文鏈接

前言node

　　上一篇介紹了僞分佈式集羣的搭建，其實在咱們的生產環境中咱們確定不是使用只有一臺服務器的僞分佈式集羣當中的。接下來我將給你們分享一下全分佈式集羣的搭建！linux

　　其實搭建最基本的全分佈式集羣和僞分佈式集羣基本沒有什麼區別，只有很小的區別。web

1、搭建Hadoop全分佈式集羣前提

1.一、網絡

　　1）若是是在一臺虛擬機中安裝多個linux操做系統的話，可使用NAT或橋接模式都是能夠的。試一試可不能夠相互ping通！ubuntu

　　2）若是在一個局域網當中，本身的多臺電腦（每臺電腦安裝相同版本的linux系統）搭建，將所要使用的Ubuntu操做系統的網絡模式調整爲橋接模式。服務器

　　　　步驟：網絡

　　　　　　一是：在要使用的虛擬機的標籤上右鍵單擊，選擇設置，選擇網絡適配器，選擇橋接模式，肯定ssh

　　　　　　二是：設置完成以後，重啓一下虛擬機　分佈式

　　　　　　三是：再設置橋接以前將固定的IP取消　　　oop

　　　　　　　　桌面版：經過圖形化界面設置的。
　　　　　　　　服務器版：在/etc/network/interfaces
　　　　　　　　　　　　iface ens33 inet dhcp
　　　　　　　　　　　　#address ...測試

　　　　　　四是：ifconfig獲取IP。172.16.21.xxx　　　

　　　　　　最後試一試能不能ping通

1.二、安裝jdk

　　每個要搭建集羣的服務器都須要安裝jdk，這裏就不介紹了，能夠查看上一篇

1.三、安裝hadoop

　　每個要搭建集羣的服務器都須要安裝hadoop，這裏就不介紹了，能夠查看上一篇。

2、Hadoop全分佈式集羣搭建的配置

配置/opt/hadoop/etc/hadoop相關文件

2.一、hadoop-env.sh　　

　　25行左右：export JAVA_HOME=${JAVA_HOME}
　　改爲：export JAVA_HOME=/opt/jdk

2.二、core-site.xml　

        <configuration>
            <property>
                <name>fs.defaultFS</name>
                <value>hdfs://mip:9000</value>
            </property>
        </configuration>

　　分析：

　　　　　　mip：在主節點的mip就是本身的ip，而全部從節點的mip是主節點的ip。

　　　　　　9000：主節點和從節點配置的端口都是9000

2.三、hdfs-site.xml

　　注意：**:下面配置了幾個目錄。須要將/data目錄使用-R給權限爲777。

        <configuration>
            <property>
                <name>dfs.nameservices</name>
                <value>hadoop-cluster</value>
            </property>
            <property>
                <name>dfs.replication</name>
                <value>1</value>
            </property>
            <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///data/hadoop/hdfs/nn</value>
            </property>
            <property>
                <name>dfs.namenode.checkpoint.dir</name>
                <value>file:///data/hadoop/hdfs/snn</value>
            </property>
            <property>
                <name>dfs.namenode.checkpoint.edits.dir</name>
                <value>file:///data/hadoop/hdfs/snn</value>
            </property>
            <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///data/hadoop/hdfs/dn</value>
            </property>
        </configuration>

　　　分析：

　　　　　　dfs.nameservices：在一個全分佈式集羣大衆集羣當中這個的value要相同

　　　　　　dfs.replication：由於hadoop是具備可靠性的，它會備份多個文本，這裏value就是指備份的數量（小於等於從節點的數量）

　　　一個問題：

　　　　　　dfs.datanode.data.dir：這裏我在配置的時候遇到一個問題，就是當使用的這個的時候從節點起不來。當改爲fs.datanode.data.dir就有用了。

　　　　　　可是官方給出的文檔確實就是這個呀！因此很邪乎。由於只有2.0版本以前是fs

2.4.mapred-site.xml　　　　　　　　

　　注意：若是在剛解壓以後，是沒有這個文件的，須要將mapred-site.xml.template複製爲mapred-site.xml。

        <configuration>
            <property>
　　　　　　<!-指定Mapreduce運行在yarn上-->
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
            </property>
        </configuration>

2.五、yarn-site.xml　　

        <configuration>
            <!-- 指定ResourceManager的地址-->
            <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>mip</value>
            </property>
            <!-- 指定reducer獲取數據的方式-->
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
            <property>
                <name>yarn.nodemanager.local-dirs</name>
                <value>file:///data/hadoop/yarn/nm</value>
            </property>

　　分析：

　　　　mip：在主節點的mip就是本身的ip，而全部從節點的mip是主節點的ip。

2.六、建立上面配置的目錄

    sudo mkdir -p /data/hadoop/hdfs/nn
    sudo mkdir -p /data/hadoop/hdfs/dn
    sudo mkdir -p /data/hadoop/hdfs/snn
    sudo mkdir -p /data/hadoop/yarn/nm

　　必定要設置成：sudo chmod -R 777 /data