Hadoop學習14--Hadoop之一點點理解yarn

時間 2019-11-09

標籤 hadoop 學習之一點點理解 yarn 欄目 Hadoop 简体版

原文原文鏈接

yarn是一個分佈式的資源管理系統。html

它誕生的緣由是原來的MapReduce框架的一些不足：app

一、JobTracker單點故障隱患框架

二、JobTracker承擔的任務太多，維護Job狀態，Job的task的狀態等分佈式

三、在taskTracker端，使用map/reduce task表示資源過於簡單，沒有考慮cpu、內存等使用狀況。當把多個須要消耗大量內存的task調度到一塊兒時，很容易出現問題spa

演化後的基本組件xml

下面具體解釋：htm

yarn是一個資源管理的框架，而非計算的框架，理解這點很重要。對象

圖中的Application至關於1.x版本中的map/reduce job。blog

圖中的Container是一個邏輯概念，是一組資源（內存、cpu等）的統稱。生命週期

AM：每個Application對應一個AM。

ResourceManager：主要來作資源的協調者。有兩個重要的組件：

　　Scheduler：【資源調度】從全部運行着的Application收到資源請求後，構建一個全局的分配計劃。而後根據Application特殊的限制以及全局的一些限制條件分配資源。【資源監視】週期性的接受來自NM的資源使用率監控信息。注意這和job的執行狀況無關，只是監視資源。另外能夠爲AM提供其已完成的container的狀態信息。

　　Asm：接收資源請求，向Scheduler申請一個Container提供給AM，並啓動AM。向client提供AM運行狀態。總結一句話，就是用來管理全部AM的生命週期。

yarn工做流程：

總結的說就是兩步：client提交Job到AM，AM請求資源運行起來ASM；ASM接管，它計算split、申請資源、與NM配合運行task、監控task等。

一、Job client向AM提交job。

　　1)得到ApplicationID

　　2)將Application定義，以及所需jar包上傳到hdfs指定目錄(yarn-site.xml的yarn.app.mapreduce.am.staging-dir)

　　3)構造資源請求對象以及Application提交上下文信息，提交給AM

二、AM向Scheduler請求一個供ASM運行的Container，向其所在NM發送launchContainer信息，啓動Container

三、AM於NM協調，啓動ASM，並監控之

四、Job client從AM處得到ASM信息，並與之直接通訊

五、ASM計算splits併爲全部map構造資源請求

六、ASM作一些OutputCommitter的準備工做