分佈式平臺搭建

分佈式平臺搭建

  • acmore
  • 2018.6.17

1. 搭建Hadoop

如下操做皆基於Ubuntu 16.04 32位環境 & Hadoop 2.7.3版本html

1.1 單節點環境

  • 首先安裝相關的準備環境
$ sudo apt update
$ sudo apt install -y default-jdk
$ sudo apt install -y vim
$ sudo apt install -y openssh-server
  • 配置JAVA_HOME
    • 通常來講Ubuntu平臺上經過default-jdk安裝的java位置在/usr/lib/jvm/default-jdk目錄
    • /etc/profile中添加下邊兩行內容並保存退出
    export JAVA_HOME=/usr/lib/jvm/default-java
    export PATH=$PATH:$JAVA_HOME/bin
  • 添加用戶和用戶組
$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
$ sudo usermod -a -G sudo hduser
  • 配置ssh
    • 切換到hduser,並執行如下操做
    $ ssh-keygen -t rsa -P ""
    $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    • 以後嘗試使用下邊的命令鏈接本機,這個操做也會將本機加入到known hosts裏
    $ ssh localhost
  • 安裝Hadoop
    • 下載hadoop-2.7.3.tar.gz,如下假定工做目錄爲/home/hduser
    $ tar -zxvf hadoop-2.7.3.tar.gz
    $ mv hadoop-2.7.3/ hadoop/
    $ sudo chown -R hduser:hadoop hadoop
  • 編輯bash配置
    • 打開.bashrc,加入如下內容(也能夠修改/etc/profile,可是使用.bashrc更加靈活)
    export JAVA_HOME=/usr/lib/jvm/default-java
    export HADOOP_HOME=/home/hduser/hadoop
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
  • 配置Hadoop(不一樣版本的hadoop的配置方案會有不一樣,配置以前記得要肯定版本)
    • 修改~/hadoop/etc/hadoop/hadoop-env.sh,在文件中添加下邊的內容
    export JAVA_HOME=/usr/lib/jvm/default-java
    • 修改~/hadoop/etc/hadoop/yarn-env.sh,在文件中添加下邊的內容
    export JAVA_HOME=/usr/lib/jvm/default-java
    • 修改~/hadoop/etc/hadoop/core-site.xml
      • 執行如下命令
      $ sudo mkdir -p /home/hduser/tmp
      $ sudo chown hduser:hadoop /home/hduser/tmp
      $ sudo chmod 750 /home/hduser/tmp
      • 在core-site.xml添加如下內容(各個屬性的內容能夠按照實際狀況修改)
      <configuration>
          <property>
              <name>fs.defaultFS</name>
              <value>hdfs://master:9000</value>
          </property>
          <property>
              <name>io.file.buffer.size</name>
              <value>131072</value>
          </property>
         <property>
              <name>hadoop.tmp.dir</name>
              <value>file:/home/hduser/tmp</value>
              <description>Abase for other temporary directories.</description>
          </property>
          <property>
              <name>hadoop.proxyuser.hduser.hosts</name>
             <value>*</value>
          </property>
          <property>
              <name>hadoop.proxyuser.hduser.groups</name>
              <value>*</value>
          </property>
      </configuration>
    • 修改~/hadoop/etc/hadoop/hdfs-site.xml,添加如下內容(各個屬性的內容能夠按照實際狀況修改)
      • 執行如下命令
      $ sudo mkdir -p /home/hduser/dfs/name
      $ sudo chown hduser:hadoop /home/hduser/dfs/name
      $ sudo chmod 750 /home/hduser/dfs/name
      $ sudo mkdir -p /home/hduser/dfs/data
      $ sudo chown hduser:hadoop /home/hduser/dfs/data
      $ sudo chmod 750 /home/hduser/dfs/data
      • 在hdfs-site.xml中添加如下內容
      <configuration>
          <property>
              <name>dfs.namenode.secondary.http-address</name>
              <value>master:9001</value>
          </property>
          <property>
              <name>dfs.namenode.name.dir</name>
              <value>file:/home/hduser/dfs/name</value>
          </property>
          <property>
              <name>dfs.datanode.data.dir</name>
              <value>file:/home/hduser/dfs/data</value>
          </property>
          <property>
              <name>dfs.replication</name>
              <value>3</value>
          </property>
          <property>
              <name>dfs.webhdfs.enabled</name>
              <value>true</value>
          </property>
      </configuration>
    • 修改~/hadoop/etc/hadoop/mapred-site.xml,添加如下內容(各個屬性的內容能夠按照實際狀況修改)
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
        <property>
            <name>mapreduce.jobhistory.address</name>
            <value>master:10020</value>
        </property>
        <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>master:19888</value>
        </property>
    </configuration>
    • 修改~/hadoop/etc/hadoop/yarn-site.xml(各個屬性的內容能夠按照實際狀況修改)
    <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
            <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
            <name>yarn.resourcemanager.address</name>
            <value> master:8032</value>
        </property>
        <property>
            <name>yarn.resourcemanager.scheduler.address</name>
            <value> master:8030</value>
        </property>
        <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
            <value> master:8031</value>
        </property>
        <property>
            <name>yarn.resourcemanager.admin.address</name>
            <value> master:8033</value>
        </property>
        <property>
            <name>yarn.resourcemanager.webapp.address</name>
            <value> master:8088</value>
        </property>
    </configuration>
  • 格式化Namenode
    • 進入~/hadoop/bin目錄下,執行如下操做
    $ ./hdfs namenode –format
  • 啓動hadoop
    • ~/hadoop/sbin執行如下命令
    $ ./start-dfs.sh
    $ ./start-yarn.sh
    • 以後經過jps命令能夠看到如下結果,說明啓動成功
    13058   Jps
    13026   NodeManager
    12916   ResourceManager
    12169   DataNode

1.2 集羣環境

此處默認master和slave已經按照單機節點配置完成java

  • 設置網絡
    • 個人例子是一臺master一臺slave,分別肯定二者的ip,而後在兩臺機器的/etc/hosts中寫入如下內容
    192.168.0.1    master
    192.168.0.2    slave
  • 配置ssh免密登陸
    • 在master上執行如下命令
    $ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@slave
    • 在slave上執行如下命令
    $ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@master
    • 以後兩方互相登陸測試一下是否能夠免密登陸
  • 配置~/hadoop/etc/hadoop/slaves
    • 在master機器的slaves文件中添加如下內容
    master
    slave
  • 格式化Namenode
    • 進入master的~/hadoop/bin目錄下,執行如下操做
    $ ./hdfs namenode –format
  • 啓動hadoop
    • 在master的~/hadoop/sbin執行如下命令
    $ ./start-dfs.sh
    $ ./start-yarn.sh
    • 以後經過jps命令能夠看到如下結果,說明啓動成功
      • master中
      4048    Jps
      3899    ResourceManager
      4013    NodeManager
      3726    SecondaryNameNode
      3423    NameNode
      3535    DataNode
      • slave中
      2754    DataNode
      3012    Jps
      2903    NodeManager

2. 搭建Spark

2.1 Spark平臺

  • 下載Spark
    • 這裏下載和hadoop版本對應的spark,假定工做目錄爲/home/hduser
    • 進行以下操做解壓壓縮包(每一個節點都要進行)
    $ tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
  • 配置~/.bashrc文件
    • 在.bashrc文件中添加如下內容(每一個節點都要添加)
    export SPARK_HOME=/home/hduser/spark
    export PATH=$PATH:$SPARK_HOME/bin
  • 配置~/spark/conf/slaves文件
    • 在兩個節點的salves文件中添加如下內容
    master
    slave
  • 啓動Spark
    • 在master的~/spark/sbin中執行如下命令
    ./start-all.sh
    • 在master中執行jps,發現如下結果說明spark運行成功
    5257    Worker
    5177    Master
    3726    SecondaryNameNode
    5326    Jps
    3432    NameNode
    3535    DataNode
    • 在slave中執行jsp,發現一下結果說明spark運行成功
    2754    DataNode
    3717    Worker
    3771    Jps

2.2. 配置Scala

  • 下載Scala
    • 這裏相應版本的scala壓縮包,假定工做目錄爲/home/hduser
    • 進行以下操做解壓壓縮包(只須要在master進行)
    $ tar -zxvf scala-2.12.6.tgz
  • 配置~/.bashrc文件
    • 在.bashrc文件中添加如下內容(只須要在master在master上執行如下命令)
    export SCALA_HOME=/home/hduser/scala
    export PATH=$PATH:$SCALA_HOME/bin

2.3 配置Eclipse

  • 安裝Eclipse
    • 在master上執行如下命令
    $ sudo apt install eclipse-platform
  • 安裝Eclipse插件

參考資料

  1. 在Ubuntu上搭建單節點Hadoop
  2. 在Ubuntu上搭建Hadoop集羣
相關文章
相關標籤/搜索