電商數倉:用戶行爲數據倉庫(一)數據倉庫建設和技術選型

數據倉庫概念

數據倉庫(Data WareHouse),簡寫爲DW或DWH,爲企業決策制定過程,提供全部系統數據支持的戰略集合,經過對數據倉庫中的數據分析,幫助企業改進業務流程,控制成本,提升產品質量sql

數據倉裏不是數據的最終目的地,而是爲數據最終目的地作好準備,這些準備對數據:清洗,轉義,分類,重組,合併,拆分,統計
在這裏插入圖片描述服務器

項目需求分析

1.數據採集平臺搭建markdown

2.用戶行爲數據倉庫的分層搭建架構

3.實現業務數據倉庫的分層搭建框架

4.針對數據倉庫中的數據進行留存,轉化率,CMV,復購率,活躍等報表分析ide

架構設計

技術選型

數據採集傳輸 : Flume,Kafka,Logstash,DataX,Sqoopoop

數據存儲: Hive.Mysql,HDFS,HBase,S3spa

數據計算:spark,Hive,Tez,Flink,Storm架構設計

數據查詢 : Presto,Impala,Kylin設計

系統結構設計

在這裏插入圖片描述

數據流程設計

在這裏插入圖片描述

框架和版本選型

產品 版本
Hadoop 2.7.2
Flume 1.7.0
Kafka 0.11.0.2
Kafka Manager 1.3.3.22
Hive 1.2.1
Sqoop 1.4.6
MySQL 5.6.24
Azkaban 2.5.0
Java 1.8
Zookeeper 3.4.10
Presto 0.189

注意: 框架選擇最近半年左右穩定版

集羣資源規劃設計

服務器hadoop102 服務器hadoop103 服務器hadoop104
HDFS NameNode DataNode DataNode DataNode SecondaryNameNode
Yarn NodeManager Resourcemanager NodeManager NodeManager
Zookeeper Zookeeper Zookeeper Zookeeper
Flume(採集日誌) Flume Flume
Kafka Kafka Kafka Kafka
Flume(消費Kafka) Flume
Hive Hive
MySQL MySQL
Presto Presto
相關文章
相關標籤/搜索