中臺出現的背景服務器
從技術上來看,隨着業務的發展,不少企業在前期搭建了不少的IT系統,系統間像煙囪同樣相互獨立。在面對着愈來愈複雜的業務,愈來愈多的數據,企業IT在擴展舊系統上出現了必定的侷限,從而產生不斷的重複建設的問題,企業須要制定數字轉型改革的戰略,來解決複雜業務系統之間的解耦問題,從而下降產品各個模塊的依賴,提升複用程度。架構
從管理架構上來看,隨着公司業務的不斷壯大,每一個團隊都須要技術,產品,市場等方面的基礎支持,各個團隊開展業務時須要的支持有很大程度上的重複,可是因爲從制度上每一個業務部門都是進行獨立考覈的,致使業務部門每每從自身利益出發,互相之間爭奪資源,隔閡不斷上升,資源沒法高效利用。工具
企業在這樣的背景下,須要尋求能夠打破這樣困境的方法。在2015年,在業務的快速擴張,阿里巴巴一樣也面臨相同的困境,阿里巴巴借鑑前人的一些方法,提出數據中臺的概念,從組織架構上,再也不採用具體的業務模塊下分設事業部的方式,而是將細分事業部打亂,根據具體業務將其中一些可以爲業務線提供基礎技術,數據等支撐部門整合爲 「共享事業部」,目的在於有效地利用共享資源,爲一線業務提供支持。阿里巴巴內部在技術上也作了必定的調整,經過ESB(Enterprise Service Bus)來實現SOA(Service Oriented Architecture)的企業級信息系統基礎平臺,下降不一樣模塊開發團隊間的協同成本,業務相應更快速。打造「大中臺,小前臺「體系架構,統一爲業務線提供支持和幫助。設計
理解數據中臺blog
數據中臺是企業數據產品和數據服務的搭建和實施的方法論,數據中臺不只僅是工具,它還包括系統架構、數據圖譜、數據質量、組織架構、規範流程等一切與企業數據價值相關的建設體系。它經過一系列方法和體系來爲業務系統提供計算和分析服務。生命週期
不一樣行業的經營策略和數據場景千差萬別,所涉及的系統和工具也很是多選擇,同一行業不一樣企業對於數據架構的建設思路也不盡相同,這就致使了每一家企業的數據中臺不能經過簡單複製。可是對於企業在數據中臺的體系建設和管理規範流程,都是有規矩可循,能夠尋求類似的方法。事件
怎麼建設數據中臺事務
數據中臺總體的建設方案涉及到數據產品,方法論及數據服務的總體的輸出,能夠從如下幾個方面來描述:資源
1. 數據技術搭建。開發
數據技術搭建包括數據架構的搭建以及數據模型的搭建。數據架構的搭建包括底層架構,數據存儲平臺,數據分析工具的搭建等。數據模型搭建包括業務調研,以及模型設計與開發。
1.1 架構搭建
在咱們進行數據運算以前,咱們須要先搭建適合數據分析的軟硬件環境。基礎架構的選擇,如服務器應該用私有云,公有云仍是自建機房。系統須要處理的數據是離線數據仍是實時數據,數據存儲類型是關係型仍是非關係型。如何選擇基礎軟件,數據存儲工具,數據處理工具,數據展現工具等。工具的選擇有很是多種,沒有優劣之分,須要跟據企業自身的環境來選擇合適的工具。
1.2 數據模型
1.2.1 業務調研
須要由企業策略部門來分析這些數據應該支撐怎樣的決策,會從哪些方面來進行分析。再細緻到肯定哪些業務指標,數據指標的定義,業務場景,以及指標建設的價值。根據指標的業務口徑,來肯定指標的技術口徑 ,在存儲層面須要用到什麼樣的表和字段,過程當中使用怎樣的計算公式進行計算。對指標的業務定義進行技術層面的轉換,經行數據計算的原型設計和評審。
1.2.2 模型設計
本文主要參照Inmon 企業信息工廠,Kimball 的維度建模, 阿里的OneData建模理論等來闡述數據模型的設計。採用三層建模的方式進行數據的組織存儲,分爲ODS(操做數據層),CDM(數據公共層)、ADS(應用數據層)。
ODS層(操做數據層):
又叫數據登臺區,把來源於其餘系統的數據,幾乎無處理的存放到數據中臺,把結構化和非結構化數據抽取和存儲到數據ODS層,把有必要轉換的非結構化數據轉換爲結構化數據,對數據作一些必要的清洗和歷史數據沉澱。
CDM層(數據公共層)
又細分爲DIM層(公共維度層),DWD層(明細寬表層)和DWS層(公共彙總層)。
DIM層(公共維度層)採用一致性維度規範來進行建設,維度表中維度屬性在不一樣物理表中的字段名稱,數據類型,數據內容保持一致。維度能夠作適當的合併和拆分。維度中描述業務相關性強的字段合併在一個物理維表中實現,如品牌和品類。無強相關性,但有必定業務聯繫的屬性能夠適當考慮放在雜項維度。對於維度屬性過多,記錄數過大的維度能夠適當拆分。
DWD層(明細寬表層)
明細寬表層包含事務型事實表,週期快照型事實表,累計快照事實表。事務性事實表主要用於分析行爲與追蹤事件,表明業務過程當中的行爲細節。週期快照型事實表用於分析事物的狀態和存量事實,以預約時間來採樣事實的狀態。累計快照事實表是指多個業務過程聯合分析的事實的累計狀況,如不一樣事件的時間間隔,支付時長,發貨時長,退款時長等;
DWS層(公共彙總數據層)
公共彙總層基於明細寬表層的數據進行必定程度的彙總和加工;
ADS層(數據應用層)
主要存放爲應用而加工的個性化指標和維度,主要來源於CDM層。好比複雜的指標的預處理(比率型指標,排名指標等)。以及基於應用的表處理,行列轉換等。
基於這些數據處理的過程,數據再以各類形式提供給數據應用層來使用。
2. 數據資產管理。
數據資產管理是把數據當成是企業所擁有的資產同樣來進行管理。包括元數據管理(其中會有數據圖譜,血緣分析,影響分析等)、數據質量管理、數據生命週期管理。
2.1 元數據管理
數據中臺來源數據多樣,多源,多域,經過數據的清洗、分類、拉通、整合、彙總等,數據的使用者須要有一份清晰的數據資產目錄,從而瞭解數據的前因後果,對數據的使用有更清晰的認識。支撐數據的抽取,加工,發佈,維護,歸檔等步驟的生命週期過程的管理。元數據管理會把企業的數據由源頭,入庫,計算,應用的整個處理過程進行梳理和管控。
2.2 數據質量管理
數據質量管理指的是在數據加工鏈路的全部重要環節中須要對數據的質量作評估和控制,根據數據的處理特性來採起相應的數據質量校驗。數據質量必須包括幾個方面:1)完整性 2)規範性 3)一致性 4) 準確性 5) 一致性 6)及時性。經過對數據質量的統一規範的定義,按照定義的標準,對數據中臺處理過程當中所涉及到的數據進行檢查,從而實現數據質量進行評價和量化。數據質量管理是數據應用的必要步驟,數據應用必須以保證數據是準確,完整的爲前提。
3. 數據服務。
一切數據加工和計算都是爲數據服務而創建的。數據服務包括數據分析服務和數據應用服務,數據應用服務如生意參謀和阿里指數是數據中臺中面向商家端提供的數據服務。數據處理的結果經過各類形式的數據呈現,來幫助企業管理層和業務部門進行商業決策,