如何設計成功的數據湖

 

執行摘要

業務用戶不斷設想出新的創新方法,將數據用於運營報告和高級分析。 Data Lake是下一代數據存儲和管理解決方案,旨在知足日益精明的用戶不斷變化的需求。數據庫

本白皮書探討了企業數據倉庫和其餘現有數據管理和分析解決方案的現有挑戰。 它描述了Data Lake體系結構的必要功能以及利用數據和分析即服務(DAaaS)模型所需的功能。 它還介紹了Data Lake成功實施的特色以及設計Data Lake的關鍵考慮因素。安全

當前的企業數據倉庫挑戰

業務用戶不斷設想出新的創新方法,將數據用於運營報告和高級分析。 隨着用戶需求的發展以及數據存儲技術的進步,當前企業數據倉庫解決方案的不足之處變得更加明顯。 當今數據倉庫面臨的如下挑戰可能會阻礙使用並阻止用戶最大化其分析功能:服務器

  • 及時性 。 向企業數據倉庫引入新內容多是一個耗時且繁瑣的過程。 當用戶須要當即訪問數據時,即便是短暫的處理延遲也會使人沮喪,並致使用戶繞過正確的流程,轉而本身快速獲取數據。 用戶還可能浪費寶貴的時間和資源從操做系統中提取數據,自行存儲和管理數據,而後對其進行分析。
  • 靈活性 。 用戶不只無需隨時訪問他們可能須要的任何數據,並且還可以使用他們選擇的工具來分析數據並得到關鍵看法。 此外,當前的數據倉庫解決方案一般存儲一種類型的數據,而今天的用戶須要可以分析和聚合多種不一樣格式的數據。
  • 品質 。 用戶可能懷疑地查看當前數據倉庫。 若是數據源自何處以及如何處理,則用戶可能不信任該數據。 此外,若是用戶擔憂數據倉庫中的數據丟失或不許確,他們可能會繞過倉庫,轉而直接從其餘內部或外部源獲取數據,這可能會致使同一數據的多個衝突實例。
  • 可尋找性 。 對於許多當前的數據倉庫解決方案,用戶沒法在須要時快速,輕鬆地搜索和查找所需的數據。 沒法查找數據還限制了用戶利用和構建現有數據分析的能力。 
    高級分析用戶須要基於IT「推送」模型的數據存儲解決方案(不受特定分析項目的驅動)。 與現有的特定於一個或一小部分用例的解決方案不一樣,所須要的是一種存儲解決方案,能夠在整個企業中實現多個不一樣的用例。

這種新的解決方案須要以自助服務的形式支持多個報告工具,以便在不進行大量建模的狀況下快速提取新數據集,並在提供性能的同時擴展大型數據集。 它應該支持高級分析,如機器學習和文本分析,並容許用戶迭代地清理和處理數據,並跟蹤數據的譜系以確保合規性。 用戶應該可以在一個安全的位置輕鬆搜索和探索來自多個源的結構化,非結構化,內部和外部數據。架構

符合全部這些標準的解決方案是數據湖。機器學習

數據湖藍圖

 
信息圖表顯示監督數據湖 
數據湖架構

Data Lake是一個以數據爲中心的架構,具備可以以各類格式存儲大量數據的存儲庫。 來自Web服務器日誌,數據庫,社交媒體和第三方數據的數據被提取到Data Lake中。 經過捕獲元數據和沿襲並使其在數據目錄(Datapedia)中可用來進行管理。 還適用安全策略,包括權利。工具

數據能夠經過批處理或流數據的實時處理流入Data Lake。 此外,數據自己再也不受初始模式決策的約束,而且能夠被企業更自由地利用。 超越此存儲庫的是一組功能,容許IT在供需模型中提供數據和分析即服務(DAaaS)。 IT扮演數據提供者(供應商)的角色,而業務用戶(數據科學家,業務分析師)則是消費者。性能

DAaaS模型使用戶可以自我提供數據和分析需求。 用戶瀏覽湖泊的數據目錄(數據倉庫)以查找和選擇可用數據,並填寫一個隱含的「購物車」(其實是分析沙箱),其中包含可供使用的數據。 一旦配置了訪問權限,用戶就可使用他們選擇的分析工具來開發模型並得到洞察力。 隨後,用戶能夠發佈分析模型或將精煉或轉換的數據推送回Data Lake以與更大的社區共享。學習

雖然配置分析沙箱是主要用途,但Data Lake還有其餘應用程序。 例如,Data Lake也可用於提取原始數據,策劃數據和應用ETL。 而後能夠將此數據加載到企業數據倉庫。 爲了利用Data Lake提供的靈活性,組織須要根據其特定要求和域自定義和配置Data Lake。測試

數據湖實施成功的特徵

Data Lake使用戶可以分析存儲在湖中的所有數據和數量。 這須要特徵和功能來保護和策劃數據,而後對其進行分析,可視化和報告。 成功的Data Lake的特色包括:大數據

  • 使用多種工具和產品 。 從Data Lake中提取最大價值須要任何單一開源平臺或商業產品供應商目前沒法提供的定製管理和集成。成功的Data Lake所需的跨引擎集成須要多個技術堆棧,這些堆棧自己支持結構化,半結構化和非結構化數據類型。
  • 域規範 。 Data Lake必須針對特定行業量身定製。 爲生物醫學研究定製的數據湖與爲金融服務量身定製的數據湖有很大不一樣。Data Lake須要業務感知數據定位功能,使業務用戶可以查找,探索,理解和信任數據。 此搜索功能須要提供直觀的導航方式,包括關鍵字,分面和圖形搜索。 在這種狀況下,這種能力須要複雜的業務本體,其中業務術語能夠映射到物理數據。 使用的工具應該可以獨立於IT,以便業務用戶能夠在須要時獲取所需的數據,並在必要時進行分析,無需IT干預。
  • 自動化元數據管理 。 Data Lake概念依賴於爲湖中的每一個內容捕獲一組強大的屬性。 數據沿襲,數據質量和使用歷史等屬性對可用性相當重要。 維護此元數據須要高度自動化的元數據提取,捕獲和跟蹤功能。 若是沒有高度自動化和強制性的元數據管理,Data Lake將迅速成爲數據沼澤。
  • 可配置的攝取工做流程 。 在蓬勃發展的數據湖中,業務用戶將不斷髮現新的外部信息來源。 這些新的資源須要迅速加入,以免挫敗感,並當即實現機會。 配置驅動的攝取工做流機制能夠提供高水平的重用,從而能夠重新來源獲取簡單,安全和可跟蹤的內容。
  • 與現有環境集成 。 Data Lake須要融入並支持現有的企業數據管理範例,工具和方法。 它須要一個主管,在須要時集成和管理現有的數據管理工具,如數據分析,數據管理和清理以及數據屏蔽技術。

牢記全部這些因素對於成功構建Data Lake相當重要。

設計Data Lake

設計成功的Data Lake是一項艱鉅的任務,須要全面瞭解技術要求和業務敏銳度,以徹底定製和集成架構,以知足組織的特定需求。

Knowledgent的大數據科學家和工程師提供必要的專業知識,將Data Lake發展爲成功的數據和分析即服務解決方案,包括:

  • DAaaS戰略服務定義 。 咱們的信息專家利用定義DAaaS平臺提供的服務目錄,包括數據入門,數據清理,數據轉換,數據集,分析工具庫等。
  • DAaaS架構 。 咱們幫助客戶實現目標狀態DAaaS架構,包括構建環境,選擇組件,定義工程流程以及設計用戶界面。
  • DAaaS PoC 。 咱們設計並執行概念驗證(PoC)以演示DAaaS方法的可行性。 使用前沿基礎和其餘選定工具構建/演示DAaaS平臺的主要功能。
  • DAaaS操做模型設計和部署 。 咱們定製咱們的DAaaS運營模式,以知足我的客戶的流程,組織結構,規則和治理。 這包括創建DAaaS退款模型,消費跟蹤和報告機制。
  • DAaaS平臺功能擴建 。 咱們提供專業知識,能夠迭代構建全部平臺功能,包括設計,開發和集成,測試,數據加載,元數據和目錄填充以及部署。

結論

Data Lake能夠成爲高級分析專家和業務用戶的有效數據管理解決方案。 Data Lake容許用戶在什麼時候以及如何須要時分析各類各樣的卷。 遵循數據和分析即服務(DAaaS)模型爲用戶提供按需自助服務數據。

然而,爲了取得成功,Data Lake須要利用衆多產品,同時爲行業量身定製,併爲用戶提供普遍,可擴展的定製。 Knowledgent的信息專家提供技術專業知識和商業頭腦的融合,幫助組織設計和實施他們完美的Data Lake。

相關文章
相關標籤/搜索