[讀書筆記]《大數據之路》——阿里數據整合及管理體系——OneData模型

阿里數據整合及管理體系——OneData模型

摘要

阿里的《大數據之路》第9章介紹了其內部進行數據整合及管理的方法體系和工具OneData。他們在這一體系下,構建統 、規範、可共的全域數據體系,避免數據的冗餘和重複建設,規避數據煙囪和不一致性,瞭解他們的建模理論,有助於擴寬咱們對數據建模的視野和思考。架構

1. 概述

阿里巴巴集團大數據建設方法論的核心 :從業務架構設計到模型設計,從數據研發到數據服務,作到數據可管理 、可追溯、可規避重複建設。運維

1.1 定位及價值

定位:建設統一的、規範化的數據接人層( ODS )和數據中間層( DWD 和
DWS ),經過數據服務和數據產品,完成服務於阿里巴巴的大數據系統建設 ,即數據公共層建設。工具

價值:提供標準化的( Standard )、共享的( Shared )、數據服務( Service )能力,下降數據互通成本,釋放計算、存儲、人力等資源,以消除業務和技術之痛。性能

2. 體系架構

體系架構圖

圖1.2.1 體系架構圖

2. 規範定義

規範定義實例

圖2.1.1 規範定義實例

3. 模型設計

3.1 指導理論

維度建模理論:基於維度數據模型總線架構,構建一致性的維度
和事實。大數據

3.2 模型層次

(1) 操做數據層(ODS)ui

功能:同步;結構化;累積歷史、清洗架構設計

(2) 公共維度模型層(DM):明細數據層(DWD)+彙總數據層(DWS)設計

功能:組合相關和類似數據;公共指標統一加工;創建一致性維度3d

(3) 應用數據層( DS )blog

功能:個性化指標加工;基於應用的數據組裝

模型層次關係圖

圖3.2.1 模型層次關係圖

3.3 基本原則

(1) 高內聚和低輯合

(2) 核心模型與擴展模型分離

(3) 公共處理邏輯下沉及單一

(4) 成本與性能平衡

(5) 數據可回滾

(6) 一致性

(7) 命名清晰、可理解

4. 模型實施

需求分析>架構設計>詳細模型設計

4.1 業界經常使用的模型實施過程

  1. Kimball 模型實施過程

(1) 高層模型

(2) 詳細模型

(3) 模型審查、再設計和驗證

(4) 提交 ETL 設計和開發

參考:Ralph Kimball, The DataWarehouse Lifecycle Toolkit

  1. Inmon 模型實施過程

三個層次:

ERD (Entity Relationship Diagram ,實體關係圖)層

DIS (Data Item Set 數據項集)層

物理層(Physical Model ,物理模型)

參考:Inmon, Building the Data Warehouse

  1. 其餘模型實施過程

· 業務建模,生成業務模型

· 領域建模,生成領域模型

· 邏輯建模,生成邏輯模型

· 物理建模,生成物理模型

4.2 OneData 實施過程

  1. 指導方針

首先,在建設大數據數據倉庫時,要進行充分的業務調研和需求分析。

其次,進行數據整體架構設計,主要根據數據域對數據進行劃分;按照維度建模理論,構建總線矩陣、抽出業務過程和維度。

再次,對報表需求進行抽象整理出相關指標體系,使用 OneData 工具完成指標規範定義和模型設計。

最後,就是代碼研發和運維。

  1. 實施工做流

(1) 數據調研

· 業務調研

· 需求調研

(2) 架構設計

· 數據域劃分

· 構建總線矩陣

(3) 規範定義

主要定義指標體系,包括原子指標、修飾詞、時間週期和派生指標。

(4) 模型設計

主要包括維度及屬性的規範定義,維表、明細事實表和彙總事實表的模型設計。

(5) 總結

是一個高度迭代和動態的過程, 般採用螺旋式實施方法。

OneData實施工做流

圖4.2.1 OneData實施工做流
相關文章
相關標籤/搜索