Spark on yarn

時間 2019-12-02

標籤 spark yarn 欄目 Spark 简体版

原文原文鏈接

Spark-on-YARN

1. 官方文檔

http://spark.apache.org/docs/latest/running-on-yarn.htmlhtml

2. 配置安裝

1.安裝hadoop：須要安裝HDFS模塊和YARN模塊，HDFS必須安裝，spark運行時要把jar包存放到HDFS上。node

2.安裝Spark：解壓Spark安裝程序到一臺服務器上，修改spark-env.sh配置文件，spark程序將做爲YARN的客戶端用於提交任務sql

export JAVA_HOME=/usr/local/jdk1.8.0_131shell

export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.3/etc/hadoopapache

3.啓動HDFS和YARN服務器

3. 運行模式（cluster模式和client模式）

1.cluster模式app

./bin/spark-submit --class org.apache.spark.examples.SparkPi \分佈式

--master yarn \oop

--deploy-mode cluster \測試

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 2 \

--queue default \

lib/spark-examples*.jar \

---------------------------------------------------------------------------------------------------------------------------------

./bin/spark-submit --class cn.edu360.spark.day1.WordCount \

--master yarn \

--deploy-mode cluster \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 2 \

--queue default \

/home/bigdata/hello-spark-1.0.jar \

hdfs://node-1.edu360.cn:9000/wc hdfs://node-1.edu360.cn:9000/out-yarn-1

2.client模式

./bin/spark-submit --class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode client \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 2 \

--queue default \

lib/spark-examples*.jar \

spark-shell必須使用client模式

./bin/spark-shell --master yarn --deploy-mode client

3.兩種模式的區別

cluster模式：Driver程序在YARN中運行，應用的運行結果不能在客戶端顯示，因此最好運行那些將結果最終保存在外部存儲介質（如HDFS、Redis、Mysql）而非stdout輸出的應用程序，客戶端的終端顯示的僅是做爲YARN的job的簡單運行情況。

client模式：Driver運行在Client上，應用程序運行結果會在客戶端顯示，全部適合運行結果有輸出的應用程序（如spark-shell）

4.原理

cluster模式：

Spark Driver首先做爲一個ApplicationMaster在YARN集羣中啓動，客戶端提交給ResourceManager的每個job都會在集羣的NodeManager節點上分配一個惟一的ApplicationMaster，由該ApplicationMaster管理全生命週期的應用。具體過程：

1. 由client向ResourceManager提交請求，並上傳jar到HDFS上

這期間包括四個步驟：

a).鏈接到RM

b).從RM的ASM（ApplicationsManager ）中得到metric、queue和resource等信息。

c). upload app jar and spark-assembly jar

d).設置運行環境和container上下文（launch-container.sh等腳本)

2. ResouceManager向NodeManager申請資源，建立Spark ApplicationMaster（每一個SparkContext都有一個ApplicationMaster）

3. NodeManager啓動ApplicationMaster，並向ResourceManager AsM註冊

4. ApplicationMaster從HDFS中找到jar文件，啓動SparkContext、DAGscheduler和YARN Cluster Scheduler

5. ResourceManager向ResourceManager AsM註冊申請container資源

6. ResourceManager通知NodeManager分配Container，這時能夠收到來自ASM關於container的報告。（每一個container對應一個executor）

7. Spark ApplicationMaster直接和container（executor）進行交互，完成這個分佈式任務。

client模式：

在client模式下，Driver運行在Client上，經過ApplicationMaster向RM獲取資源。本地Driver負責與全部的executor container進行交互，並將最後的結果彙總。結束掉終端，至關於kill掉這個spark應用。通常來講，若是運行的結果僅僅返回到terminal上時須要配置這個。

客戶端的Driver將應用提交給Yarn後，Yarn會前後啓動ApplicationMaster和executor，另外ApplicationMaster和executor都是裝載在container裏運行，container默認的內存是1G，ApplicationMaster分配的內存是driver- memory，executor分配的內存是executor-memory。同時，由於Driver在客戶端，因此程序的運行結果能夠在客戶端顯示，Driver以進程名爲SparkSubmit的形式存在。

若是使用spark on yarn 提交任務，通常狀況，都使用cluster模式，該模式，Driver運行在集羣中，其實就是運行在ApplicattionMaster這個進程成，若是該進程出現問題，yarn會重啓ApplicattionMaster（Driver），SparkSubmit的功能就是爲了提交任務。