yarn ha

wKioL1NTqRvjeW0jAAIlrJlyS0A322.jpg

wKioL1NTqgbD3APxAAIqbqvifCM086.jpg

wKiom1NTqi_Qk8MFAAIr2YLssEM219.jpg

HDFS+MapReduce。共同點都是分佈式的,主從關係結構。分佈式

 HDFS是包括主節點NameNode,只有一個;還有從節點DataNode,有不少個。ide

 NameNode含有咱們用戶存儲的文件的元數據信息。把這些數據存放在硬盤上,可是在運行時是加載在內存中的。spa

 缺點:(1)當咱們的NameNode沒法在內存中加載所有元數據信息的時候,集羣的壽命到頭了。設計

       (2)權限設計是不夠完全的blog

(3)大量小文件的存儲的話,會形成NameNode的內存壓力驟增。內存

 改進:(1)2個NameNode一塊兒共存,組成hdfs federation。資源

       (2)HA 自動、手工  get

 MapReduce包括主節點JobTracker,只有一個;還有從節點TaskTracker,有不少個。it

 JobTracker主要的工做是管理用戶提交的做業和分配資源。io

 缺點:(1)對於實時性做業和批處理做業,須要搭建不一樣的集羣環境,每一個集羣的資源利用率是不高的。

       (2)MapReduce職責過多,須要分解。

 Yarn是一個平臺,用於處理資源分配和運行任務的。

相關文章
相關標籤/搜索