本文分別介紹了傳統數據倉庫和雲數據倉庫,簡潔明瞭地指出二者的區別和利弊,以及對數據倉庫將來發展方向作出預測。前端
數據倉庫是從操做系統和外部數據源派生的集成歷史數據的中央存儲庫。做爲商業智能的核心部分,數據倉庫使企業可以進行普遍的商業決策,包括產品訂價,業務擴展和對新生產的投資模式。數據庫
除了協助分析和報告以外,數據倉庫還爲企業提供如下用途:安全
保持數據分析獨立於生產系統。因爲企業天天使用的運營數據庫不具有運行復雜的分析查詢能力。這樣的數據倉庫可使企業在運行此類查詢的時候不影響生產系統。服務器
爲不一樣的數據源提供統一性。架構
針對分析查詢的最優化設計。工具
雲計算的出如今過去五年中顯著影響了數據倉庫架構,致使數據倉庫服務(DWaaS)大受歡迎。 在本文的其他部分中,你將瞭解到傳統數據倉庫和基於雲的數據倉庫之間的區別。優化
傳統數據倉庫雲計算
傳統的數據倉庫須要本地IT資源,例如服務器和軟件來傳遞數據倉庫功能。企業運行本身的本地數據倉庫時,還必須有效地管理基礎架構。操作系統
傳統數據倉庫分爲如下三層結構:.net
底層:包含數據倉庫服務器,未來自多個不一樣源的數據集成到一個存儲庫中。
中間層:包含OLAP服務器,這些服務器使數據更加支持其上的一些查詢。
頂層:存儲用於查詢、報告和分析的前端BI工具。
爲了將數據集成在統一存儲庫中,ETL(提取,轉換和加載)工具是一個典型的從各類來源獲取數據的工具,將其混合並應用於商務規則以將其轉換爲查詢的正確結構,並最終把數據加載進入數據倉庫。
傳統數據倉庫設計的兩種對比方式反映了兩位計算機科學先驅Bill Inmon和Ralph Kimball的不一樣觀點:
Bill Inmon的自上而下的方法認爲,數據倉庫是全部企業數據的集中存儲庫。維度數據集市由數據倉庫建立而來,服務於特定業務線(例如財務)。
Ralph Kimball的自下而上的方法認爲,數據倉庫是由不一樣數據集市組合而成的。
雲數據倉庫
基於雲計算的數據倉庫方法運用公開的雲提供商提供的數據倉庫服務,例如Amazon Redshift或Google BigQuery。
經過提供互聯網接入的數據倉庫功能,公共雲提供商可幫助公司避開構建傳統本地數據倉庫所需的初始設置成本。此外,雲中的這些企業數據倉庫是徹底託管的,所以服務提供商管理並承擔提供所需數據倉庫功能的責任,例如系統補丁和更新。
雲架構與傳統的數據倉庫方法有所不一樣。例如,在Redshift中,該服務經過要求您提供一個基於雲的計算節點集羣來運行,其中一些計算節點編制檢索,而另外一些執行這些檢索。Google提供無服務器服務,這意味着Google會動態地管理機器資源的分配,並將這些決策從用戶中抽離出來。
比較
雲數據倉庫的優化級別難以與本地部署的有限功率相匹配。列式存儲(表箇中的值按列而不是按行存儲)能夠根據須要運行的查詢類型來知足更快的聚合查詢。大規模並行處理也是一個重要的特性,經過使用多臺機器協調大型數據集的查詢處理,可顯著提升速度。
就雲數據倉庫的擴展性而言,和從雲提供商那裏獲取更多資源同樣簡單。然而,本地部署的可擴展性很是耗時且成本很高,所以須要購買更多硬件。
雲計算中的安全性是一個棘手的問題,由於互聯網上的數據傳輸太字節(terabytes)會帶來嚴重的安全問題考慮,並且敏感數據也可能引發一些合規性問題。本地部署就避免了這樣的擔心,由於企業控制着一切。
總結
雲數據倉庫的准入門檻低,有助於中小企業更容易訪問數據倉庫。此外,即便是最大型的企業也能夠從較低的成本中受益,例如基礎架構的持續管理和輕鬆的可擴展性。
雲數據倉庫不是沒有問題,好比潛在的安全問題,然而,益處大於弊端。傳統的本地部署並無徹底被淘汰,但隨着數據量和速度不斷增加,並且雲服務能更專業化地處理這些問題。隨着愈來愈多的工做負載遷移到雲中,愈來愈多的公司做爲服務提供商進入市場,數據倉庫的將來彷佛在雲中。
原文標題:The Difference Between a Traditional Data Warehouse and a Cloud Data Warehouse
原文連接:http://www.dataversity.net/difference-traditional-data-warehouse-cloud-data-warehouse/