揭開數據湖建築的神祕面紗

 

據Gartner稱 , 到2021年 , 80%的成功CDO將創造價值或創造收入做爲其第一優先事項。數據庫

爲了在組織的數據環境中創造最大價值,傳統的決策支持系統架構已再也不適用。 須要開發新的架構模式以利用數據的力量。 爲了充分發揮使用大數據的價值,組織須要擁有靈活的數據架構,並可以從數據生態系統中獲取最大價值。數據結構

Data Lake概念已經出現了一段時間。 可是,我看到組織很難理解這個概念,由於不少組織仍然在舊的企業數據倉庫範例中加入。架構

在本文中,我將深刻探討Data Lake Architecture模式的概念構造和佈局架構模式。iphone

讓咱們從已知的第一個開始。佈局

傳統數據倉庫(DWH)架構:測試

傳統的企業DWH架構模式已經使用了不少年。 有數據源,數據被提取,轉換和加載(ETL),在途中,咱們進行某種結構建立,清理等。咱們在EDW(維度模型或3NF模型)中預約義數據模型,而後建立部門數據用於報告的marts,用於切片和切塊的OLAP多維數據集以及自助BI。大數據

這種模式無處不在,如今已經很好地服務了咱們。ui

可是,這種模式存在一些固有的挑戰,沒法在大數據時代擴展。 讓咱們看看其中幾個:視頻

首先,咱們工做的理念是咱們須要首先理解數據。 什麼是源系統結構,它擁有什麼樣的數據,基數是什麼,應該如何根據業務需求對其進行建模,數據是否有任何異常等等。 這是一項乏味而複雜的工做。 我曾經在需求分析和數據分析階段花費至少2-3個月。 EDW項目可持續幾個月到幾年。 這都是基於企業瞭解需求的假設。
咱們還必須對要存儲的數據和要丟棄的數據作出選擇和妥協。 在決定引入什麼,如何引入,如何存儲,如何轉換等方面花費了大量時間。花費更少的時間來實際執行數據發現,發現模式或建立新的業務增值假設。
數據定義:ip

如今讓咱們簡要討論數據定義是如何變化的。 如今衆所周知,4 V的大數據。 體積,速度,多樣性和準確性。 讓我在這些事情上加上一些背景:

自iphone革命以來,數據量激增。 每一年有60億部智能手機和近1PB的數據。
數據不只僅是靜止的。 有流數據,IoT啓用鏈接設備。 來自多個方面的大量數據。
它也涉及各類數據。 視頻輸入,照片都是如今須要分析和利用的數據點。
隨着數據的爆炸式增加也帶來了數據質量的挑戰。 在大數據世界中哪個應該值得信任,哪一個不該該是一個更大的挑戰。
簡而言之,可分析數據的定義已經發生了變化。 如今不僅是結構公司數據,而是各類數據。 挑戰在於將它們混合起來並從中理解。

摩爾定律:

自2000年以來,處理能力,存儲和相應的成本結構發生了巨大變化。 它一直受到咱們稱之爲摩爾定律的影響 。 關鍵點:

自2000年以來,處理能力增長了大約10,000倍。這意味着有效分析更多數據的能力有所提升。
存儲成本也至關可觀。 自2000年以來,存儲成本已經降低了1000多倍。
數據湖類比:

讓我用類比來解釋Data Lake的概念。

參觀一個大湖老是一種很是愉快的感受。 湖中的水是最純淨的形式,不一樣的人在湖上進行不一樣的活動。 有些人正在釣魚,有些人正在乘船遊覽,這個湖還爲居住在安大略省的人提供飲用水。 簡而言之,同一個湖泊用於多種用途。

隨着數據範例的變化,出現了一種新的架構模式。 它被稱爲數據湖建築。 就像湖中的水同樣,數據湖中的數據是最純粹的形式。 就像湖泊同樣,它須要不一樣的人,想釣魚的人或想乘船的人或想要從中獲取飲用水的人,數據湖建築迎合多種人物角色。 它爲數據科學家提供了探索數據和建立假設的途徑。 它爲業務用戶提供了一種探索數據的途徑。 它爲數據分析師提供了分析數據和查找模式的途徑。 它爲報告分析師建立報告和向利益相關者呈現提供了一條途徑。

我將數據湖與數據倉庫或市場進行比較的方式以下:

Data Lake以最純粹的形式存儲數據,迎合多個利益相關者,還能夠用於以最終用戶可使用的形式打包數據。 另外一方面,數據倉庫已通過蒸餾和包裝以達到特定目的。

概念數據湖建築:

在解釋了這個概念後,如今讓我帶您瞭解數據湖的概念架構。 如下是數據湖架構中的關鍵組件。 咱們擁有能夠結構化和非結構化的數據源。 它們都集成到原始數據存儲中,以最純粹的形式使用數據,即不進行轉換。 它是一種廉價的持久存儲,能夠大規模存儲數據。 而後咱們有了分析沙箱,用於理解數據,建立原型,執行數據科學和探索數據以構建新的假設和用例。

而後咱們有批處理引擎,它將原始數據處理成可由用戶使用的東西,便可用於向最終使用報告的結構。 咱們將其稱爲已處理的數據存儲。 有一個實時處理引擎能夠獲取流數據並對其進行處理。 此體系結構中的全部數據都已編目和編制。

讓我引導您完成此體系結構中的每一個組件組。

LAMBDA:

第一個組件組適合處理數據。 它遵循稱爲Lambda Architecture的架構模式。 基本上,Lambda架構須要兩個處理路徑。 批處理層和速度層。 批處理層以最可能的形式存儲數據,即原始數據存儲和速度層接近實時處理數據。 速度層還將數據存儲到原始數據存儲中,而且能夠在加載處處理的數據存儲以前存儲瞬態數據。

分析沙箱:

分析沙箱是數據湖架構的關鍵組成部分之一。 這些是數據科學家的探索領域,他們能夠開發和測試新的假設,混搭和探索數據以造成新的用例,建立快速原型來驗證這些用例,並實現能夠採起哪些措施來提取價值。這生意。

它是數據科學家能夠發現數據,提取價值並幫助改變業務的地方。

編目和治理:

數據編目是傳統商業智能中不斷忽視的重要原則。 在大數據領域,編目是人們應該關注的最重要的方面。 讓我首先給出一個類比來解釋什麼是編目。 我和個人客戶一塊兒作這個練習,以得到編目的重點。

當我要求個人客戶在沒有提供目錄信息的狀況下猜想繪畫的潛在成本時,答案範圍從100美圓到100,000美圓不等。 當我提供目錄信息時,答案更接近實際。 順便說一下,這幅畫被稱爲Pablo Picasso於1903年創做的「 老吉他手 」。它的估計成本超過1億美圓。

數據目錄很是類似。 不一樣的數據塊具備不一樣的值,而且該值根據數據的譜系,數據質量,建立源等而變化。數據須要被編目,以便數據分析員或數據科學家能夠本身決定哪一個數據指向用於特定分析。

目錄圖:

目錄映射提供了能夠編目的潛在元數據。 編目是捕獲有價值的元數據的過程,以即可以用它來肯定數據的特徵並作出是否使用它的決定。 基本上有兩種類型的元數據:業務和技術。 業務元數據更多地與定義,邏輯數據模型,邏輯實體等有關,而技術元數據是捕獲與數據結構的物理實現相關的元數據。 它包括數據庫,質量得分,列,架構等。

根據目錄信息,分析師能夠選擇在正確的上下文中使用特定的數據點。 讓我給你舉個例子。 想象一下,數據科學家想要對庫存週轉率及其在ERP中定義的方式進行探索性分析,而且庫存系統是不一樣的。 若是對該術語進行了編目,則數據科學家能夠根據上下文決定使用ERP中的列或庫存系統。

Data Lake和EDW的主要區別:

這是一個明確的幻燈片,試圖解釋差別。

首先,哲學是不一樣的。 在數據湖架構中,咱們首先在raw中加載數據並決定咱們應該如何處理它。 在傳統的DWH架構中,咱們必須首先理解數據,對其進行建模而後加載。
數據湖中的數據以原始形式存儲,其中DWH中的數據以結構化形式存儲。 記住湖和蒸餾水。
Data lake支持各類用戶。
分析項目其實是敏捷項目。 這些項目的本質是,一旦你看到輸出,你會想得更多,想要更多。 數據湖本質上是敏捷的。 因爲它們將全部數據與其目錄存儲在一塊兒,所以可確保若是出現新要求,則能夠很是輕鬆地進行調整。
Azure上的Data Lake架構:

雲平臺最適合實施Data Lake Architecture。 他們擁有大量可組合服務,能夠將它們編織在一塊兒以實現所需的可擴展性。 Microsoft的Cortana Intelligence Suite提供了一個或多個組件,能夠映射到Data Lake Architecture。

相關文章
相關標籤/搜索