Hadoop=HDFS+Hive+Pig+...web
HDFS: 存儲系統算法
MapReduce:計算系統數據庫
Hive:提供給SQL開發人員(經過HiveQL)的MapReduce,基於Hadoop的數據倉庫框架服務器
Pig:基於Hadoop的語言開發的框架
HBase:NoSQL數據庫分佈式
Flume:一個收集處理Hadoop數據的框架工具
Oozie:一個讓用戶以多種語言(如MapReduce,Pig和Hive)定義一系列做業的工做流處理系統oop
Ambari:一個基於web的部署/管理/監控Hadoop集羣的工具集測試
Avro:容許編碼Hadoop文件的schema的一種數據序列化系統優化
Mahout:一個數據挖掘庫,它包含了最流行的一些數據挖據算法,而且以MapReduce模型來實現他們
Sqoop:一個從非Hadoop數據存儲(如關係數據庫和數據倉庫)進來的移動數據到Hadoop中的鏈接工具
HCatalog:一箇中心化的元數據管理以及Apache Hadoop共享服務,它容許在Hadoop集羣中的全部數據的統一視圖,並容許不一樣的工具,包括Pig和Hive,處理任何數據元素,而無需知道身體在集羣中的數據存儲。
BigTop:爲了創造一個更正式的程序或框架Hadoop的子項目及相關組件的目標提升Hadoop的平臺,做爲一個總體的包裝和互操做性測試。
Apache Storm:一個分佈式實時計算系統,Storm是一個任務並行連續計算引擎。 Storm自己並不典型在Hadoop集羣上運行,它使用Apache ZooKeeper的和本身的主/從工做進程,協調拓撲,主機和工做者狀態,保證信息的語義。不管如何, Storm一定仍是能夠從HDFS文件消費或者從文件寫入到HDFS。
Apache Spark:一種快速,通用引擎用於大規模數據處理,Spark是一個數據並行通用批量處理引擎。工做流中在一個相似的和懷舊風格的MapReduce中定義,可是,比傳統Hadoop MapReduce的更能幹。Apache Spark有其流API項目,該項目經過短間隔批次容許連續處理。Apache Spark自己並不須要Hadoop操做。可是,它的數據並行模式,須要穩定的數據優化使用共享文件系統。該穩定源的範圍能夠從S3,NFS或更典型地,HDFS。執行Spark應用程序並不須要Hadoop YARN。Spark有本身獨立的主/服務器進程。然而,這是共同的運行使用YARN容器Spark的應用程序。此外,Spark還能夠在Mesos集羣上運行。