Spark On Yarn的兩種模式yarn-cluster和yarn-client深度剖析

時間 2019-11-06

標籤 html web apache 安全架構 app 框架分佈式函數 oop 欄目 Spark 简体版

原文原文鏈接

Spark On Yarn的優點

每一個Spark executor做爲一個YARN容器(container)運行。Spark可使得多個Tasks在同一個容器(container)裏面運行

1. Spark支持資源動態共享，運行於Yarn的框架都共享一個集中配置好的資源池

2. 能夠很方便的利用Yarn的資源調度特性來作分類、隔離以及優先級控制負載，擁有更靈活的調度策略

3. Yarn能夠自由地選擇executor數量

4. Yarn是惟一支持Spark安全的集羣管理器，使用Yarn，Spark能夠運行於Kerberized Hadoop之上，在它們進程之間進行安全認證

咱們知道Spark on yarn有兩種模式：yarn-cluster和yarn-client。這兩種模式做業雖然都是在yarn上面運行，可是其中的運行方式很不同，今天就來談談Spark on YARN yarn-client模式做業從提交到運行的過程剖析html

Yarn-Cluster

在YARN-Cluster模式中，當用戶向YARN中提交一個應用程序後，YARN將分兩個階段運行該應用程序：

第一個階段是把Spark的Driver做爲一個ApplicationMaster在YARN集羣中先啓動；
第二個階段是由ApplicationMaster建立應用程序，而後爲它向ResourceManager申請資源，並啓動Executor來運行Task，同時監控它的整個運行過程，直到運行完成

應用的運行結果不能在客戶端顯示（能夠在history server中查看），因此最好將結果保存在HDFS而非stdout輸出，客戶端的終端顯示的是做爲YARN的job的簡單運行情況，下圖是yarn-cluster模式框架

執行過程：分佈式

Spark Yarn Client向YARN中提交應用程序，包括ApplicationMaster程序、啓動ApplicationMaster的命令、須要在Executor中運行的程序等
ResourceManager收到請求後，在集羣中選擇一個NodeManager，爲該應用程序分配第一個Container，要求它在這個Container中啓動應用程序的ApplicationMaster，其中ApplicationMaster進行SparkContext等的初始化
ApplicationMaster向ResourceManager註冊，這樣用戶能夠直接經過ResourceManage查看應用程序的運行狀態，而後它將採用輪詢的方式經過RPC協議爲各個任務申請資源，並監控它們的運行狀態直到運行結束
一旦ApplicationMaster申請到資源（也就是Container）後，便與對應的NodeManager通訊，要求它在得到的Container中啓動CoarseGrainedExecutorBackend，而Executor對象的建立及維護是由CoarseGrainedExecutorBackend負責的，CoarseGrainedExecutorBackend啓動後會向ApplicationMaster中的SparkContext註冊並申請Task。這一點和Standalone模式同樣，只不過SparkContext在Spark Application中初始化時，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler進行任務的調度，其中YarnClusterScheduler只是對TaskSchedulerImpl的一個簡單包裝，增長了對Executor的等待邏輯等
ApplicationMaster中的SparkContext分配Task給CoarseGrainedExecutorBackend執行，CoarseGrainedExecutorBackend運行Task並向ApplicationMaster彙報運行的狀態和進度，以讓ApplicationMaster隨時掌握各個任務的運行狀態，從而能夠在任務失敗時從新啓動任務
應用程序運行完成後，ApplicationMaster向ResourceManager申請註銷並關閉本身

比之前的更多的理解：
（1）Application Master所在的NodeManager是Yarn隨機分配的，不是在主節點上，下圖是實驗室集羣上跑得一個Spark程序，tseg0是主節點，tseg1~tseg4是workers，IP10.103.240.29指的是tseg3: 函數

（2）在上圖還能夠看出，executor的容器和AM容器是能夠共存的，它們的封裝都是容器；
（3）AM是Yarn啓動的第一個容器；
（4）AM所在的NodeManager就是日常說的Driver端，由於這個AM啓動了SparkContext，以前實驗室說的「誰初始化的SparkContext誰就是Driver端」一直理解錯了，覺得這句話是相對於機器說的，但實際上是相對於Cluster和Client的集羣模式來講的（不知道其餘模式Mesos、standalone是否是也是這樣）。
（5）在Application提交到RM上以後，Client就能夠關閉了，集羣會繼續運行提交的程序，在實際使用時，有時候會看到這樣一種現象，關閉Client會致使程序終止，其實這個Application尚未提交上去，關閉Client打斷了提交的過程，Application固然不會運行。oop

YARN-Cluster和YARN-Client的區別

理解YARN-Client和YARN-Cluster深層次的區別以前先清楚一個概念：Application Master。在YARN中，每一個Application實例都有一個ApplicationMaster進程，它是Application啓動的第一個容器。它負責和ResourceManager打交道並請求資源，獲取資源以後告訴NodeManager爲其啓動Container。從深層次的含義講YARN-Cluster和YARN-Client模式的區別其實就是ApplicationMaster進程的區別
YARN-Cluster模式下，Driver運行在AM(Application Master)中，它負責向YARN申請資源，並監督做業的運行情況。當用戶提交了做業以後，就能夠關掉Client，做業會繼續在YARN上運行，於是YARN-Cluster模式不適合運行交互類型的做業
YARN-Client模式下，Application Master僅僅向YARN請求Executor，Client會和請求的Container通訊來調度他們工做，也就是說Client不能離開

（1）YarnCluster的Driver是在集羣的某一臺NM上，可是Yarn-Client就是在RM的機器上；
（2）而Driver會和Executors進行通訊，因此Yarn_cluster在提交App以後能夠關閉Client，而Yarn-Client不能夠；
（3）Yarn-Cluster適合生產環境，Yarn-Client適合交互和調試。

下表是Spark Standalone與Spark On Yarn模式下的比較