Spark On Yarn 搭建

時間 2019-11-06

標籤 spark yarn 搭建欄目 Spark 简体版

原文原文鏈接

實現步驟：node

1）搭建好Hadoop（版本，2.7）集羣shell

2）安裝和配置scala（版本，2.11）oop

上傳解壓scala-2.11.0.tgz—>配置 /etc/profile文件spa

配置信息以下：scala

3）在NodeManager節點（01,02,03節點）上安裝和配置Spark3d

4）進入Spark安裝目錄的Conf目錄，配置：spark-env.sh 文件xml

配置以下：blog

export JAVA_HOME=/home/software/jdk1.8進程

export SCALA_HOME=/home/software/scala-2.11.0內存

export HADOOP_HOME=/home/software/hadoop-2.7.1

export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop

5）配置：slaves文件

配置以下：

hadoop01

hadoop02

hadoop03

6）在HDFS上，建立一個目錄，用來存放 spark的依賴jar包

執行： hadoop fs -mkdir /spark_jars

7）進入spark 安裝目錄的jars目錄，

執行：hadoop fs -put ./* /spark_jars

8）進入spark安裝目錄的 conf目錄，配置：spark-defaults.conf 文件

配置師例：

spark.yarn.jars=hdfs://hadoop02:9000/spark_jars/*

9）至此，完成Spark-Yarn的配置。注意：若是是用虛擬機搭建，可能會因爲虛擬機內存太小而致使啓動失敗，好比內存資源太小，yarn會直接kill掉進程致使rpc鏈接失敗。因此，咱們還須要配置Hadoop的yarn-site.xml文件，加入以下兩項配置：

yarn-site.xml配置示例：

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

<name>yarn.nodemanager.pmem-check-enabled</name>

<value>false</value>

</property>

10）啓動Hadoop的yarn，進入Hadoop安裝目錄的sbin目錄

執行：sh start-yarn.sh

11）啓動spark shell，進入Spark安裝目錄的bin目錄

執行：sh spark-shell --master yarn-client

而後能夠經過yarn控制檯來驗證

至於spark的使用，和以前都是同樣的。只不過資源的分配和管理是交給yarn來控制了。

相關標籤/搜索

搭建

yarn

hadoop+hdfs+yarn+spark

hadoop&yarn&mahout&spark

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。