我所經歷的大數據平臺發展史(二):非互聯網時代 • 下篇

編者按:本文是松子(李博源)的大數據平臺發展史系列文章的第二篇(共四篇),本系列以獨特的視角,比較了非互聯網和互聯網兩個時代以及傳統與非傳統兩個行業。是對數據平臺發展的一個回憶,對非互聯網、互聯網,從數據平臺的用戶角度、數據架構演進、模型等進行了闡述。前端

前言,」數據模型「 這個詞只要是跟數據沾邊就會出現的一個詞,在數據庫設計、數據倉庫、數據挖掘上、業務裏都存在,聚焦一下,這裏提到的是數據平臺中的」數據模型「。 這是一個很是的抽象詞,我的也很難用簡單語言把他描述出來,這一章也是整個系列中較爲抽象的一章節,同時這個章節將會回答非互聯網數據平臺數據模型是什麼?如何須要數據模型?如何簡單的建設? 算法

在「我所經歷的大數據平臺發展史 上篇 非互聯網時代」曾經提到 Bill inmon 與 Ralph kilmball 兩位大師的設計理念,對業務的數據按照某種規則進行有效組織並知足業務需求。數據庫

在構建過程當中,有一個角色理解業務並探索分散在各系統間的數據,並經過某條業務主線把這些分散在各角落的數據串聯並存儲同時讓業務使用,在設計時苦逼的地方除了考慮業務數據結構要素外,還得考慮可操做性、約束性(備註 約束性是完成數據質量提高的一個關鍵要素,將來新話題主題會討論這些),這個既要顧業務、數據源、合理的整合的角色是數據模型設計師,又叫數據模型師。性能優化

非互聯網時代的數據模型是一個高度智慧業務抽象結晶,數據模型是整個系統建設過程的導航圖。數據結構

(點擊放大圖像)架構

平臺中模型設計所關注的是企業分散在各角落數據、未知的商業模式與未知的分析報表,經過模型的步驟,理解業務並結合數據整合分析,創建數據模型爲 Data cleaning 指定清洗規則、爲源數據與目標提供 ETL mapping (備註:ETL 代指數據從不一樣源到數據平臺的整個過程,ETL Mapping 可理解爲 數據加工算法,給數碼看的,互聯網與非互聯網此處差別性也較爲明顯,非互聯網數據平臺對 ETL 定義與架構較爲複雜)支持、 理清數據與數據之間的關係。(備註:Data cleaning 是指的數據清洗 數據質量相關不論是在哪一個行業,是最使人頭痛的問題,分業務域、技術域的數據質量問題,須要經過事前盤點、事中監控、過後調養,有機會在闡述)。app

你們來看一張較爲嚴謹的數據模型關係圖:數據庫設計

(點擊放大圖像)性能

  • 數據模型是整個數據平臺的數據建設過程的導航圖。
  • 有利於數據的整合。數據模型是整合各類數據源指導圖,對現有業務與數據從邏輯層角度進行了全面描述,經過數據模型,能夠創建業務系統與數據之間的映射與轉換關係。排除數據描述的不一致性。如:同名異義、同物異名..。
  • 減小多餘冗餘數據,由於瞭解數據之間的關係,以及數據的做用。在數據平臺中根據需求採集那些用於分析的數據,而不須要那些純粹用於操做的數據。

在面對企業複雜業務與成千上萬的數據項進行設計時,沒有哪一個牛逼的人都記得住的,因此出現了按照某種層次規則去有組織並抽象與管理易用,由此誕生了概念模型、邏輯模型、物理模型 (備註 數據平臺數據模型,而非數據挖掘的模型)。大數據

數據模型在數據平臺的數據倉庫中是一個統稱,嚴格上來說分爲概念模型、邏輯模型、物理模型。(備註:四類模型如何去詳細構建文本不深講,關於非互聯網企業的數據模型網上很是多)

(點擊放大圖像)

在「我所經歷的大數據平臺發展史 上篇 非互聯網時代「提到兩位大師的架構與爭論,進一步聚焦來講,爭論點個人認爲實際上是在數據模型的支持上,Bill Inmon 的 EDW 的原則是準三範式的設計、Ralph kilmbal 是星型結構。

Bill Inmon 對 EDW 的定義是面向事物處理、面向數據管理,從數據的特徵上須要堅持維護最細粒度的數據、維護最微觀層次的數據關係、保存數據歷史。因此在構建完畢的數據平臺中能夠從中映射並檢查業務信息的完整性(同時也是養數據過程當中的重要反饋點),這種方式還能夠找出多個系統相關和重合的信息,減小多個系統之間數據的重複定義和不一致性,減少了應用集成的難度。

(點擊放大圖像)

(點擊放大圖像)

該建設方式的要點是首先創建各個數據源業務的實體關係、而後再根據保存的主子實體關係、存儲性能作優化。

Ralph kilmball 對 DM(備註:數據集市,非挖掘模型)的定義是面向分析過程的 (Analytical Process oriented),由於這個模型對業務用戶很是容易理解,同時爲了查詢也是作了專門的性能優化。因此星型、雪花模型很直觀比較高性能爲用戶提供查詢分析。

(點擊放大圖像)

該方式的建模首先肯定用戶需求問題與業務需求數據粒度,構建分析所須要的維度、與度量值造成星型模型;(備註 涉及的複雜維度、退化維度等不在這個討論範圍)。

數據模型的業務建模階段、領域概念模型階段、邏輯模型階段、物理模型階段是超級學術與複雜的話題,並且在模型領域根據特色又分主數據 (MDM)、CIF(企業級統一視圖) 、通用模型 (IBM 的金融、保險行業通用模型、 Teradata 的 金融通用模型、 電信移動通用模型等),鎖涉及到術語」擴展「、」扁平化「、」裁剪「等眼花繚亂的建模手法,數據模型不一樣層次 ODS、DWD

DWD、DW、ST 的分層目的不一樣致使模型設計方法又不一樣。相信業界有不少大牛能講的清楚的,之後有機會再交流。

(點擊放大圖像)

(點擊放大圖像)

(點擊放大圖像)

(點擊放大圖像)

本文帶你們回憶了歷史非互聯網的數據平臺發展與核心模型特色,固然數據平臺的發展不是一步到位的,是通過無數人的智慧、努力反覆迭代而逐漸演進的。

非互聯網企業的數據平臺發展,每一代的平臺架構中的結構都是及其複雜的,好比 ETL 架構、數據模型架構、BD 的架構、前端展示、元數據、數據質量等各方面,每一部分展開都是一個很深的話題,有機會再分享給你們。 

下篇章將分享給你們互聯網時代的數據平臺,互聯網的數據平臺也就是在 07 年 -08 年左右開始迅猛發展的,在發展的初期也是從傳統數據平臺的第三代架構開始演進的,互聯網產品發展特色是「糙、快、猛」,同時數據量的超快速膨脹所帶來的技術變革,從數據倉庫 -> 海量數據 -> 大數據膨脹必然原有的技術沒法支撐高 IO 吞吐、密集型計算,從而發展了合適互聯網大數據平臺。

相關文章
相關標籤/搜索