Hadoop 2.x 生態系統及技術架構圖


1、負責收集數據的工具:
Sqoop(關係型數據導入Hadoop)
Flume(日誌數據導入Hadoop,支持數據源普遍)
Kafka(支持數據源有限,但吞吐大)算法


2、負責存儲數據的工具:
HBase
MongoDB
Cassandra
Accumulosql

MySql
Oracle
DB2windows

HDFS(Hadoop Distribut File System)2.0架構

3、底層組件
Apache Common(通用模塊)、
Avro(序列化成二進制)、
OS(Linux、windows。。。)框架

4、通用工具
Zookeeper分佈式協做服務
Oozie工做流流調度系統
Ambari圖形化部署、非xml,跟蹤集羣狀態機器學習

5、分佈式計算框架
MapReduce(經過磁盤離線計算)
Spark(經過內存實時計算)
Storm(實現流式數據計算)
Tez(GAG計算,對MR拆分)
Impala(實現實時交互式計算)
Flink、Slider、Open MPI
HCatalog分佈式

YARN(跨集羣資源調度管理)以上各類計算框架架構在YAEN上,H2.0引入ide

6、數據分析處理
Hive數據倉庫
sql語句生成MR做業工具

Pig工做流引擎
相似sql比MR語法簡單oop

Mahout數據挖掘庫
提供了諸多機器學習算法

Java、.net
R、Scala、Solr
Impapla、Ohter ISV

7、結果輸出通過數據分析處理,輸出到BI工具、展現系統ETL ToolsBI ReportingRDBMSOLAP

相關文章
相關標籤/搜索