好程序員大數據實戰之YARN資源管理,YARN是一種新的 Hadoop 資源管理器,它是一個通用資源管理系統,可爲上層應用提供統一的資源管理和調度,它的引入爲集羣在利用率、資源統一管理和數據共享等方面帶來了巨大好處。
YARN整體上仍然是master/slave結構,在整個資源管理框架中,resourcemanager爲master,nodemanager是slave。Resourcemanager負責對各個nademanger上資源進行統一管理和調度。當用戶提交一個應用程序時,須要提供一個用以跟蹤和管理這個程序的ApplicationMaster,它負責向ResourceManager申請資源,並要求NodeManger啓動能夠佔用必定資源的任務。因爲不一樣的ApplicationMaster被分佈到不一樣的節點上,所以它們之間不會相互影響。
YARN的基本組成結構,YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等幾個組件構成。
ResourceManager是Master上一個獨立運行的進程,負責集羣統一的資源管理、調度、分配等等;NodeManager是Slave上一個獨立運行的進程,負責上報節點的狀態;App Master和Container是運行在Slave上的組件,Container是yarn中分配資源的一個單位,包涵內存、CPU等等資源,yarn以Container爲單位分配資源。Client向ResourceManager提交的每個應用程序都必須有一個Application Master,它通過ResourceManager分配資源後,運行於某一個Slave節點的Container中,具體作事情的Task,一樣也運行與某一個Slave節點的Container中。RM,NM,AM乃至普通的Container之間的通訊,都是用RPC機制。
YARN的架構設計使其愈來愈像是一個雲操做系統,數據處理操做系統。
最後說起YARN的資源管理,咱們能夠從如下幾個方面進行理解:
1.資源調度和隔離是yarn做爲一個資源管理系統,最重要且最基礎的兩個功能。資源調度由resourcemanager完成,而資源隔離由各個nodemanager實現。
2.Resourcemanager將某個nodemanager上資源分配給任務(這就是所謂的「資源調度」)後,nodemanager需按照要求爲任務提供相應的資源,甚至保證這些資源應具備獨佔性,爲任務運行提供基礎和保證,這就是所謂的資源隔離。
3.當談及到資源時,咱們一般指內存、cpu、io三種資源。Hadoop yarn目前爲止僅支持cpu和內存兩種資源管理和調度。
4.內存資源多少決定任務的生死,若是內存不夠,任務可能運行失敗;相比之下,cpu資源則不一樣,它只會決定任務的快慢,不會對任務的生死產生影響。node