一、兩種模式的區別sql
cluster模式:Driver程序在YARN中運行,應用的運行結果不能在客戶端顯示,因此最好運行那些將結果最終保存在外部存儲介質(如HDFS、Redis、Mysql)而非stdout輸出的應用程序,客戶端的終端顯示的僅是做爲YARN的job的簡單運行情況。shell
client模式:Driver運行在Client上,應用程序運行結果會在客戶端顯示,全部適合運行結果有輸出的應用程序(如spark-shell)app
二、原理分佈式
client 模式測試
①在client模式下,Driver運行在Client上,經過ApplicationMaster向RM獲取資源。本地Driver負責與全部的executor container進行交互,並將最後的結果彙總。結束掉終端,至關於kill掉這個spark應用。spa
②客戶端的Driver將應用提交給Yarn後,Yarn會前後啓動ApplicationMaster和executor,另外ApplicationMaster和executor都 是裝載在container裏運行,container默認的內存是1G,ApplicationMaster分配的內存是driver- memory,executor分配的內存是executor-memory。同時,由於Driver在客戶端,因此程序的運行結果能夠在客戶端顯 示,Driver以進程名爲SparkSubmit的形式存在。進程
二、cluster模式內存
①. 由client向ResourceManager提交請求,並上傳jar到HDFS上資源
這期間包括四個步驟:it
a).鏈接到RM
b).從RM的ASM(ApplicationsManager )中得到metric、queue和resource等信息。
c). upload app jar and spark-assembly jar
d).設置運行環境和container上下文(launch-container.sh等腳本)
②. ResouceManager向NodeManager申請資源,建立Spark ApplicationMaster(每一個SparkContext都有一個ApplicationMaster)
③. NodeManager啓動ApplicationMaster,並向ResourceManager AsM註冊
④. ApplicationMaster從HDFS中找到jar文件,啓動SparkContext、DAGscheduler和YARN Cluster Scheduler
⑤. ResourceManager向ResourceManager AsM註冊申請container資源
⑥. ResourceManager通知NodeManager分配Container,這時能夠收到來自ASM關於container的報告。(每一個container對應一個executor)
⑦. Spark ApplicationMaster直接和container(executor)進行交互,完成這個分佈式任務。
經過aws Hue能夠查看 cluster執行的時候,顯示出來的是Object類名稱
經過 aws Hue 能夠查看client 執行的時候,顯示出來的是appName名稱
總結:通常測試來講,可使用client模式能夠實時打印數據,生產的話建議用cluster,由於數據只是在集羣內部而後不用collect到driver端,預防driver內存撐爆