HDFS+MapReduce。共同點都是分佈式的,主從關係結構。分佈式
HDFS是包括主節點NameNode,只有一個;還有從節點DataNode,有不少個。ide
NameNode含有咱們用戶存儲的文件的元數據信息。把這些數據存放在硬盤上,可是在運行時是加載在內存中的。spa
缺點:(1)當咱們的NameNode沒法在內存中加載所有元數據信息的時候,集羣的壽命到頭了。設計
(2)權限設計是不夠完全的blog
(3)大量小文件的存儲的話,會形成NameNode的內存壓力驟增。內存
改進:(1)2個NameNode一塊兒共存,組成hdfs federation。資源
(2)HA 自動、手工 get
MapReduce包括主節點JobTracker,只有一個;還有從節點TaskTracker,有不少個。it
JobTracker主要的工做是管理用戶提交的做業和分配資源。io
缺點:(1)對於實時性做業和批處理做業,須要搭建不一樣的集羣環境,每一個集羣的資源利用率是不高的。
(2)MapReduce職責過多,須要分解。
Yarn是一個平臺,用於處理資源分配和運行任務的。