數據倉庫(Data WareHouse),簡寫爲DW或DWH,爲企業決策制定過程,提供全部系統數據支持的戰略集合,經過對數據倉庫中的數據分析,幫助企業改進業務流程,控制成本,提升產品質量sql
數據倉裏不是數據的最終目的地,而是爲數據最終目的地作好準備,這些準備對數據:清洗,轉義,分類,重組,合併,拆分,統計服務器
1.數據採集平臺搭建markdown
2.用戶行爲數據倉庫的分層搭建架構
3.實現業務數據倉庫的分層搭建框架
4.針對數據倉庫中的數據進行留存,轉化率,CMV,復購率,活躍等報表分析ide
數據採集傳輸 : Flume,Kafka,Logstash,DataX,Sqoopoop
數據存儲: Hive.Mysql,HDFS,HBase,S3spa
數據計算:spark,Hive,Tez,Flink,Storm架構設計
數據查詢 : Presto,Impala,Kylin設計
產品 | 版本 |
---|---|
Hadoop | 2.7.2 |
Flume | 1.7.0 |
Kafka | 0.11.0.2 |
Kafka Manager | 1.3.3.22 |
Hive | 1.2.1 |
Sqoop | 1.4.6 |
MySQL | 5.6.24 |
Azkaban | 2.5.0 |
Java | 1.8 |
Zookeeper | 3.4.10 |
Presto | 0.189 |
注意: 框架選擇最近半年左右穩定版
服務器hadoop102 | 服務器hadoop103 | 服務器hadoop104 | |
---|---|---|---|
HDFS | NameNode DataNode | DataNode | DataNode SecondaryNameNode |
Yarn | NodeManager | Resourcemanager NodeManager | NodeManager |
Zookeeper | Zookeeper | Zookeeper | Zookeeper |
Flume(採集日誌) | Flume | Flume | |
Kafka | Kafka | Kafka | Kafka |
Flume(消費Kafka) | Flume | ||
Hive | Hive | ||
MySQL | MySQL | ||
Presto | Presto |