阿里的《大數據之路》第9章介紹了其內部進行數據整合及管理的方法體系和工具OneData。他們在這一體系下,構建統 、規範、可共的全域數據體系,避免數據的冗餘和重複建設,規避數據煙囪和不一致性,瞭解他們的建模理論,有助於擴寬咱們對數據建模的視野和思考。架構
阿里巴巴集團大數據建設方法論的核心 :從業務架構設計到模型設計,從數據研發到數據服務,作到數據可管理 、可追溯、可規避重複建設。運維
定位:建設統一的、規範化的數據接人層( ODS )和數據中間層( DWD 和
DWS ),經過數據服務和數據產品,完成服務於阿里巴巴的大數據系統建設 ,即數據公共層建設。工具
價值:提供標準化的( Standard )、共享的( Shared )、數據服務( Service )能力,下降數據互通成本,釋放計算、存儲、人力等資源,以消除業務和技術之痛。性能
維度建模理論:基於維度數據模型總線架構,構建一致性的維度
和事實。大數據
(1) 操做數據層(ODS)ui
功能:同步;結構化;累積歷史、清洗架構設計
(2) 公共維度模型層(DM):明細數據層(DWD)+彙總數據層(DWS)設計
功能:組合相關和類似數據;公共指標統一加工;創建一致性維度3d
(3) 應用數據層( DS )blog
功能:個性化指標加工;基於應用的數據組裝
(1) 高內聚和低輯合
(2) 核心模型與擴展模型分離
(3) 公共處理邏輯下沉及單一
(4) 成本與性能平衡
(5) 數據可回滾
(6) 一致性
(7) 命名清晰、可理解
需求分析>架構設計>詳細模型設計
(1) 高層模型
(2) 詳細模型
(3) 模型審查、再設計和驗證
(4) 提交 ETL 設計和開發
參考:Ralph Kimball, The DataWarehouse Lifecycle Toolkit
三個層次:
ERD (Entity Relationship Diagram ,實體關係圖)層
DIS (Data Item Set 數據項集)層
物理層(Physical Model ,物理模型)
參考:Inmon, Building the Data Warehouse
· 業務建模,生成業務模型
· 領域建模,生成領域模型
· 邏輯建模,生成邏輯模型
· 物理建模,生成物理模型
首先,在建設大數據數據倉庫時,要進行充分的業務調研和需求分析。
其次,進行數據整體架構設計,主要根據數據域對數據進行劃分;按照維度建模理論,構建總線矩陣、抽出業務過程和維度。
再次,對報表需求進行抽象整理出相關指標體系,使用 OneData 工具完成指標規範定義和模型設計。
最後,就是代碼研發和運維。
(1) 數據調研
· 業務調研
· 需求調研
(2) 架構設計
· 數據域劃分
· 構建總線矩陣
(3) 規範定義
主要定義指標體系,包括原子指標、修飾詞、時間週期和派生指標。
(4) 模型設計
主要包括維度及屬性的規範定義,維表、明細事實表和彙總事實表的模型設計。
(5) 總結
是一個高度迭代和動態的過程, 般採用螺旋式實施方法。