Spark on yarn 的兩種模式

時間 2019-12-17

標籤 spark yarn 兩種模式欄目 Spark 简体版

原文原文鏈接

一、兩種模式的區別sql

cluster模式：Driver程序在YARN中運行，應用的運行結果不能在客戶端顯示，因此最好運行那些將結果最終保存在外部存儲介質（如HDFS、Redis、Mysql）而非stdout輸出的應用程序，客戶端的終端顯示的僅是做爲YARN的job的簡單運行情況。shell

client模式：Driver運行在Client上，應用程序運行結果會在客戶端顯示，全部適合運行結果有輸出的應用程序（如spark-shell）app

二、原理分佈式

client 模式測試

①在client模式下，Driver運行在Client上，經過ApplicationMaster向RM獲取資源。本地Driver負責與全部的executor container進行交互，並將最後的結果彙總。結束掉終端，至關於kill掉這個spark應用。spa

②客戶端的Driver將應用提交給Yarn後，Yarn會前後啓動ApplicationMaster和executor，另外ApplicationMaster和executor都是裝載在container裏運行，container默認的內存是1G，ApplicationMaster分配的內存是driver- memory，executor分配的內存是executor-memory。同時，由於Driver在客戶端，因此程序的運行結果能夠在客戶端顯示，Driver以進程名爲SparkSubmit的形式存在。進程

二、cluster模式內存

①. 由client向ResourceManager提交請求，並上傳jar到HDFS上資源

這期間包括四個步驟：it

a).鏈接到RM

b).從RM的ASM（ApplicationsManager ）中得到metric、queue和resource等信息。

c). upload app jar and spark-assembly jar

d).設置運行環境和container上下文（launch-container.sh等腳本)

②. ResouceManager向NodeManager申請資源，建立Spark ApplicationMaster（每一個SparkContext都有一個ApplicationMaster）

③. NodeManager啓動ApplicationMaster，並向ResourceManager AsM註冊

④. ApplicationMaster從HDFS中找到jar文件，啓動SparkContext、DAGscheduler和YARN Cluster Scheduler

⑤. ResourceManager向ResourceManager AsM註冊申請container資源

⑥. ResourceManager通知NodeManager分配Container，這時能夠收到來自ASM關於container的報告。（每一個container對應一個executor）