關於數據建模之思考(一)

以前分享了關於數據中臺建設之思考和關於中臺建設之思考,數據中臺建設要考慮三個方面,一是前沿IT技術之儲備,二是對業務的掌握程度,三是數據建模方法。數據庫

關於數據建模在《DAMA數據管理知識體系指南中文版》,第四章數據架構管理,第五章數據開發管理,第九章數據倉庫和商務智能管理中均有涉及,數據建模也有多種多樣的方法,本文嘗試對相關數據建模方法進行解讀和全面梳理。微信

百度中關於數據建模的定義是「數據建模是一種用於定義和分析數據的要求和其須要的相應支持的信息系統的過程。數據建模指的是對現實世界各種數據的抽象組織,肯定數據庫需管轄的範圍、數據的組織形式等直至轉化成現實的數據庫。將通過系統分析後抽象出來的概念模型轉化爲物理模型後,在visio或erwin等工具創建數據庫實體以及各實體之間關係的過程。」網絡

提及數據建模,不能不提數據架構,數據建模是數據架構的核心,數據架構又是企業架構的一部分。企業數據架構整合整個企業的數據並標準化,是企業架構的一部分,企業數據架構是一套規範和文檔的集合,主要包括企業數據模型:企業數據架構的核心;信息的價值鏈分析:使數據與業務流程及其餘企業架構組件相一致;相關數據交付架構:包括數據庫架構、數據整合架構、數據倉庫/商務智能架構、文檔和內容架構,以及元數據架構。數據結構

關於企業架構比較著名的是Zachman框架,它旨爲信息技術企業提供一種能夠理解的信息表述。它能夠對企業信息按照要求分類和從不一樣角度進行表示。也被稱爲企業架構和企業信息系統結構架構。Zachman框架提煉和吸取了傳統方法中的一些精髓,它是一款獨立於信息企業所使用的工具的平臺。它能夠根據抽象規則定義企業信息的一個方面.一個框架採用了一種六行,每行中包含36個子單元的格式,這六行包括了範圍,商業模式,系統模式,技術模式,組件和工做系統)其中有六列分別爲誰,什麼,什麼時間,什麼地點,爲何和如何作。架構

 


數據架構是用於定義數據,指導對數據資產的整合和控制、使數據投資與業務戰略相匹配的一套總體構建規範,包括正式的數據命名、全面的數據定義、有效的數據結構、精確的數據完整性規則,以及健全的數據文檔。--以上來自《DAMA數據管理知識體系指南中文版》框架

數據模型是定義業務實體以及運營和指導業務所需的那些事實。數據模型是一種分析和設計方法,用於定義和分析數據需求,設計知足以上需求的邏輯和物理數據結構。企業數據模型是反映數據需求和設計的一系列規範和相關圖表,企業數據模型是企業範圍內的整合的、面向主題的數據模型,用來定義關鍵的數據生產者和消費者。這裏的整合是組織中全部數據和規則都只被描述一次並沒有縫地相互配合。這裏的面向主題是模型分解爲跨多個業務流程和應用系統的有共識的主題域。主題域關注最相當重要的業務實體。這裏的關鍵是數據對組織高效運做和決策制定相當重要。--以上來自《DAMA數據管理知識體系指南中文版》。注意這裏的提到的整合和麪向主題和數據倉庫中有所不一樣。工具

DAMA中關於企業數據模型是分層次的,核心是主題域,其下是概念視圖和邏輯視圖,而且企業數據模型是自上而下構建的。spa

 

 

主題域模型,是一系列主要主題域的列表,共同表達企業最關鍵領域。企業數據模型經過主題域來組織其他的模型層次;主題域是數據管理制度和數據治理的重要工具,定義了基於主題域的數據管理制度團隊的責任範圍。.net

主題(Subject)是在較高層次上將企業信息系統中的數據進行綜合、歸類和分析利用的一個抽象概念,每個主題基本對應一個宏觀的分析領域。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。例如「銷售分析」就是一個分析領域,所以這個數據倉庫應用的主題就是「銷售分析」。設計

面向主題的數據組織方式,就是在較高層次上對分析對象數據的一個完整而且一致的描述,能刻畫各個分析對象所涉及的企業各項數據,以及數據之間的聯繫。



 

電商主題域

 

 

 電信運營商主題域

  

電網主題域




上圖均爲從網絡上收集的主題域,能夠看出企業主題的構建是個極其複雜的系統工程,企業主題是分層,好比國網將企業主題分爲12個主題域,在其下又包含65個二級主題域;再則,主題域構建的來源在哪裏呢?首先是企業內部需求驅動,但若是在短時間內構建呢?企業內部需求顯然是來不及的,這時候要考慮引入國際標準和行業標準,固然財務的有財務標準,GIS的有GIS標準,設備的有設備的標準,整合起來仍是有很大困難的,但至少也比從頭至尾所有構建來的快,另一個捷徑是借鑑其餘同類企業的標準了。

企業概念數據模型,企業數據模型的下一個層級是一系列針對每一個主題域的概念數據模型圖表。是定義業務實體及這些業務實體之間的關係,業務實體是主要組成部分,是企業熟悉並感興趣的那些事物、人員、地點的概念和類別。業務實體的一個例子是實例。概念數據模型圖通常不描述業務實體的數據屬性,概念數據模型可能會包括實體之間多對多的業務關係,能夠促進人們對業務的理解,以及有利於語義上的一致性,能夠做爲框架指導開發整合的信息系統,既包括交易處理系統,也包括商務智能分析系統。


整體概念模型

客戶概念模型

企業邏輯數據模型是在概念模型之下,增長了更多細節來反映每一個實體的關鍵數據屬性,企業邏輯模型識別每一個業務實體實例所需的數據,關鍵數據屬性表明了通用的數據需求以及那些被普遍共享的數據屬性的標準定義,關鍵的數據屬性是指若是缺失則致使企業沒法正常運做的屬性。企業邏輯模型視圖反映企業視角,是中立的且不依賴於任何特定的需求用途和應用背景,企業邏輯數據模型只應該包括全部業務定義的詞彙表,和其餘相關聯業務實體機器數據屬性的元數據。

 


在概念模型基礎上,再進行企業級邏輯數據模型的建設,但企業級邏輯數據模型通常都包含幾千上萬的個業務實體及其複雜的關係,這對於從概念模型到邏輯模型的構建是個巨大的挑戰。

後文再探討一下物理模型,範式模型和維度建模以及數倉建模的相關方法。

本文分享自微信公衆號 - 追夢IT人(baoqiangwang2020)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索