yarn的筆記

 

1、基本架構docker

YARNHadoop 2.0中的資源管理系統,它的基本設計思想是將MRv1中的JobTracker拆分紅了兩個獨立的服務:一個全局的資源管理器ResourceManager和每一個應用程序特有的ApplicationMastershell

其中ResourceManager負責整個系統的資源管理和分配,而ApplicationMaster負責單個應用程序的管理。網絡

 

2、 YARN基本組成結構架構

YARN整體上仍然是Master/Slave結構,在整個資源管理框架中,ResourceManagerMasterNodeManagerSlaveResourceManager負責對各個NodeManager上的資源進行統一管理和調度。當用戶提交一個應用程序時,須要提供一個用以跟蹤和管理這個程序的ApplicationMaster,它負責向ResourceManager申請資源,並要求NodeManger啓動能夠佔用必定資源的任務。因爲不一樣的ApplicationMaster被分佈到不一樣的節點上,所以它們之間不會相互影響。在本小節中,咱們將對YARN的基本組成結構進行介紹。框架

2-9描述了YARN的基本組成結構,YARN主要由ResourceManagerNodeManagerApplicationMaster(圖中給出了MapReduceMPI兩種計算框架的ApplicationMaster,分別爲MR AppMstrMPI AppMstr)和Container等幾個組件構成。oop

 

 

 

1.ResourceManagerRM學習

RM是一個全局的資源管理器,負責整個系統的資源管理和分配。它主要由兩個組件構成:調度器(Scheduler)和應用程序管理器(Applications ManagerASM)。spa

1調度器操作系統

調度器根據容量、隊列等限制條件(如每一個隊列分配必定的資源,最多執行必定數量的做業等),將系統中的資源分配給各個正在運行的應用程序。.net

須要注意的是,該調度器是一個純調度器,它再也不從事任何與具體應用程序相關的工做,好比不負責監控或者跟蹤應用的執行狀態等,也不負責從新啓動因應用執行失敗或者硬件故障而產生的失敗任務,這些均交由應用程序相關的ApplicationMaster完成。調度器僅根據各個應用程序的資源需求進行資源分配,而資源分配單位用一個抽象概念資源容器Resource Container,簡稱Container)表示,Container是一個動態資源分配單位,它將內存、CPU、磁盤、網絡等資源封裝在一塊兒,從而限定每一個任務使用的資源量。此外,該調度器是一個可插拔的組件,用戶可根據本身的須要設計新的調度器,YARN提供了多種直接可用的調度器,好比Fair SchedulerCapacity Scheduler等。

2 應用程序管理器

應用程序管理器負責管理整個系統中全部應用程序,包括應用程序提交、與調度器協商資源以啓動ApplicationMaster、監控ApplicationMaster運行狀態並在失敗時從新啓動它等。

2. ApplicationMasterAM

用戶提交的每一個應用程序均包含1AM,主要功能包括:

RM調度器協商以獲取資源(用Container表示);

將獲得的任務進一步分配給內部的任務;

NM通訊以啓動/中止任務;

監控全部任務運行狀態,並在任務運行失敗時從新爲任務申請資源以重啓任務。

當前YARN自帶了兩個AM實現,一個是用於演示AM編寫方法的實例程序distributedshell,它能夠申請必定數目的Container以並行運行一個Shell命令或者Shell腳本;另外一個是運行MapReduce應用程序的AM—MRAppMaster,咱們將在第8章對其進行介紹。此外,一些其餘的計算框架對應的AM正在開發中,好比Open MPISpark等。

3. NodeManagerNM

NM是每一個節點上的資源和任務管理器,一方面,它會定時地向RM彙報本節點上的資源使用狀況和各個Container的運行狀態;另外一方面,它接收並處理來自AMContainer啓動/中止等各類請求

4. Container

ContainerYARN中的資源抽象,它封裝了某個節點上的多維度資源,如內存、CPU、磁盤、網絡等,當AMRM申請資源時,RMAM返回的資源即是用Container表示的。YARN會爲每一個任務分配一個Container,且該任務只能使用該Container中描述的資源。

須要注意的是,Container不一樣於MRv1中的slot,它是一個動態資源劃分單位,是根據應用程序的需求動態生成的。截至本書完成時,YARN僅支持CPU和內存兩種資源,且使用了輕量級資源隔離機制Cgroups進行資源隔離。

 

3、 YARN工做流程

當用戶向YARN中提交一個應用程序後,YARN將分兩個階段運行該應用程序:

第一個階段是啓動ApplicationMaster

第二個階段是由ApplicationMaster建立應用程序,爲它申請資源,並監控它的整個運行過程,直到運行完成。

如圖2-11所示,YARN的工做流程分爲如下幾個步驟:

 

 

 

步驟1 用戶向YARN中提交應用程序,其中包括ApplicationMaster程序、啓動ApplicationMaster的命令、用戶程序等。

步驟2 ResourceManager爲該應用程序分配第一個Container,並與對應的Node-Manager通訊,要求它在這個Container中啓動應用程序的ApplicationMaster

步驟3 ApplicationMaster首先向ResourceManager註冊,這樣用戶能夠直接經過ResourceManager查看應用程序的運行狀態,而後它將爲各個任務申請資源,並監控它的運行狀態,直到運行結束,即重複步驟4~7

步驟4 ApplicationMaster採用輪詢的方式經過RPC協議向ResourceManager申請和領取資源。

步驟5 一旦ApplicationMaster申請到資源後,便與對應的NodeManager通訊,要求它啓動任務。

步驟6 NodeManager爲任務設置好運行環境(包括環境變量、JAR包、二進制程序等)後,將任務啓動命令寫到一個腳本中,並經過運行該腳本啓動任務。

步驟7 各個任務經過某個RPC協議向ApplicationMaster彙報本身的狀態和進度,以讓ApplicationMaster隨時掌握各個任務的運行狀態,從而能夠在任務失敗時從新啓動任務。

     在應用程序運行過程當中,用戶可隨時經過RPCApplicationMaster查詢應用程序的當前運行狀態。

步驟8 應用程序運行完成後,ApplicationMasterResourceManager註銷並關閉本身。

 

 

4、 多角度理解YARN

可將YARN看作一個雲操做系統,它負責爲應用程序啓動ApplicationMaster(至關於主線程),而後再由ApplicationMaster負責數據切分、任務分配、啓動和監控等工做,而由ApplicationMaster啓動的各個Task(至關於子線程)僅負責本身的計算任務。當全部任務計算完成後,ApplicationMaster認爲應用程序運行完成,而後退出。

5、通訊協議:

YARN通訊協議,RPC協議是鏈接各個組件的「大動脈」,瞭解不一樣組件之間的RPC協議有助於咱們更深刻地學習YARN框架。在YARN中,任何兩個需相互通訊的組件之間僅有一個RPC協議,而對於任何一個RPC協議,通訊雙方有一端是Client,另外一端爲Server,且Client老是主動鏈接Server的,所以,YARN實際上採用的是拉式(pull-based)通訊模型。如圖2-10所示,箭頭指向的組件是RPC Server,而箭頭尾部的組件是RPC Client,YARN主要由如下幾個RPC協議組成:

JobClient(做業提交客戶端)與RM之間的協議—ApplicationClientProtocol:JobClient經過該RPC協議提交應用程序、查詢應用程序狀態等。

Admin(管理員)與RM之間的通訊協議—ResourceManagerAdministrationProtocol:Admin經過該RPC協議更新系統配置文件,好比節點黑白名單、用戶隊列權限等。

AM與RM之間的協議—ApplicationMasterProtocol:AM經過該RPC協議向RM註冊和撤銷本身,併爲各個任務申請資源。

AM與NM之間的協議—ContainerManagementProtocol:AM經過該RPC要求NM啓動或者中止Container,獲取各個Container的使用狀態等信息。

NM與RM之間的協議—ResourceTracker:NM經過該RPC協議向RM註冊,並定時發送心跳信息彙報當前節點的資源使用狀況和Container運行狀況。

   

 

Yarn的組件及協議詳解:http://blog.csdn.net/u011007180/article/details/52425368

相關文章
相關標籤/搜索