一文讀懂spark yarn集羣搭建

時間 2019-11-11

標籤一文讀懂 spark yarn 集羣搭建欄目 Spark 简体版

原文原文鏈接

文是超簡單的spark yarn配置教程:java

yarn是hadoop的一個子項目，目的是用於管理分佈式計算資源，在yarn上面搭建spark集羣須要配置好hadoop和spark。我在搭建集羣的時候有3臺虛擬機，都是centos系統的。下面就開始一步一步地進行集羣搭建。node

1、配置hosts文件web

　　hosts文件是主機名到ip的映射，目的是爲了方便地查找主機，而不用去記各個主機的IP地址，好比配置master 10.218.20.210 就是爲10.218.20.210地址取名爲master,在之後的url中就能夠用master代替10.218.20.210。apache

這裏咱們爲了在配置文件中更方便地寫url，因此須要在這裏配置各個節點的host-ip映射。ubuntu

10.217.2.240 master
10.217.2.241 slave1
10.217.2.242 slave2

　　這裏個人三個節點分別對應master slave1 slave2.vim

2、配置sshcentos

　　啓動hdfs和spark的時候各個節點須要相互訪問，因此要配置好ssh祕鑰。能夠爲每一個主機生成各自的rsa祕鑰也能夠只生成一個rsa祕鑰，併發送到全部主機。bash

3、安裝JAVA併發

　　spark是基於java寫的，這裏把java解壓到某目錄而後配置環境變量,修改/etc/profileapp

  export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_77
  export JRE_HOME=$JAVA_HOME/jre
  export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
  export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

4、安裝scala

　　使用spark最好仍是用scala語言，解壓後配置環境變量,修改/etc/profile

    export SCALA_HOME=/home/hadoop/scala-2.10.6
    export PATH=$PATH:$SCALA_HOME/bin

5、安裝配置HADOOP和YARN

　　yarn的包是包含在hadoop裏面的，解壓hadoop壓縮包，tar -zcvf hadoop-2.7.5.tar.gz，配置環境變量,

    export HADOOP_HOME=/home/hadoop/hadoop-2.7.5
    export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
    export YARN_HOME=/home/hadoop/hadoop-2.7.5
    export YARN_CONF_DIR=${YARN_HOME}/etc/hadoop

　　環境變量配置完了，如今要配置hadoop自身的配置文件，目錄在hadoop目錄下的etc/hadoop文件夾，裏面有不少配置文件.咱們須要配置七個：hadoop-env.sh，yarn-env.sh，slaves，core-site.xml，hdfs-site.xml，maprd-site.xml，yarn-site.xml。

hadoop-env.sh：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_77

　　yarn-env.sh：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_77

　　slaves：

slave1
slave2

　　core-site.xml:

<configuration>
        <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000/</value>
        </property>
        <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hadoop/hadoop-2.7.2/tmp</value>
        </property>
</configuration>

　　hdfs-site.xml:

<configuration>
        <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
        </property>
        <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hadoop/hadoop-2.7.5/dfs/name</value>
        </property>
        <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hadoop/hadoop-2.7.5/dfs/data</value>
        </property>
        <property>
        <name>dfs.replication</name>
        <value>3</value>
        </property>
</configuration>

　mapred-site.xml:

<configuration>
        <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
        </property>
</configuration>

　　yarn-site.xml:

<configuration>
        <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        </property>
        <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
        <name>yarn.resourcemanager.address</name>
        <value>fang-ubuntu:8032</value>
        </property>
        <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
        </property>
        <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8035</value>
        </property>
        <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
        </property>
        <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
        </property>
</configuration>

　配置好了之後，須要調用hadoop namenode 格式化，配置改變之後就須要格式化namenode，其實就是建立一些目錄，增添一些文件，之後配置不變的話就不須要再格式化。若是配置變了就須要刪除tmp，dfs，logs文件夾，再進行格式化。

bin/hadoop namenode -format    #格式化namenode

　　如今就能夠啓動hdfs系統和yarn系統了:

 sbin/start-dfs.sh              #啓動dfs 
 sbin/start-yarn.sh              #啓動yarn

　　啓動成功後可使用jps命令查看各個節點上是否啓動了對應進程。

master節點上:

[root@CTUGT240X sbin]# jps
23809 SecondaryNameNode
23971 ResourceManager
24071 NodeManager
23512 NameNode
23644 DataNode
24173 Jps

slave節點上:

[root@CTUGT241X hadoop]# jps
31536 Jps
31351 DataNode
31454 NodeManager

6、安裝配置spark：

解壓spark壓縮包

 tar -zcvf spark-2.2.0-bin-hadoop2.7.tar

配置spark配置文件:

    cd ~spark-2.2.0-bin-hadoop2.7/conf    #進入spark配置目錄
    cp spark-env.sh.template spark-env.sh  #從配置模板複製
    vim spark-env.sh    #添加配置內容
    在spark-env.sh末尾添加如下內容（這是個人配置，你能夠自行修改）：
    export SPARK_HOME=/home/hadoop/spark-2.2.0-bin-hadoop2.7
    export SCALA_HOME=/home/hadoop/scala-2.11.12
    export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_77
    export HADOOP_HOME=/home/hadoop/hadoop-2.7.5
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SCALA_HOME/bin
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export YARN_CONF_DIR=$YARN_HOME/etc/hadoop
    export SPARK_MASTER_IP=20.2.217.123
    SPARK_LOCAL_DIRS=/home/haodop/spark-2.2.0-bin-hadoop2.7
    SPARK_DRIVER_MEMORY=1G
    export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native

　　上述的版本那些根據我的的進行修改，還有運行內存那些要根據硬件配置來，太大了啓動spark會失敗。

slaves文件: