數據倉庫的相關概念

概述
數據倉庫概念創始人W.H.Inmon在《創建數據倉庫》一書中對數據倉庫的定義是:數據倉庫就是面向主題的、集成的、相對穩定的、隨時間不斷變化(不一樣時間)的數據集合,用以支持經營管理中的決策制定過程、數據倉庫中的數據面向主題,與傳統數據庫面向應用相對應。
主題導向(Subject-Oriented)
主題是一個在較高層次上將數據歸類的標準,每個主題對應一個宏觀的分析領域。有別於通常OLTP系統,數據倉庫的資料模型設計,着重將資料按其意義歸類至相同的主題區(subject area),所以稱爲主題導向。舉例如Party、Arrangement、Event、Finance、Market、Sales、Product等。
集成性(Integrated)
數據倉庫中的數據是從原有分散的數據庫中抽取出來的,因爲數據倉庫的每一主題所對應的源數據在原有分散的數據庫中可能有重複或不一致的地方,加上綜合數據不能從原有數據庫中直接獲得,所以數據在進入數據倉庫以前必須通過數據加工和集成。這是創建數據倉庫的關鍵步驟,首先要統一原始數據中的矛盾之處,還要將原始數據結構作一個從面向應用向面向主題的轉變。
歷史性(Nonvolatile)
數據倉庫的穩定性是指數據倉庫反映的是歷史數據,而不是平常事務處理產生的數據,數據經加工和集成進入數據倉庫後是極少或根本不修改的。
時變性(Time-Variant)
數據倉庫中數據的不可更新性是針對應用來講的,即用戶進行分析處理時是不進行數據更新操做的。但並非說,從數據集成入庫到最終被刪除的整個數據生成周期中,全部數據倉庫中的數據都永遠不變,而是隨時間不斷變化的。數據倉庫是不一樣時間的數據集合,它要求數據倉庫中的數據保存時限能知足進行決策分析的須要。
數據倉庫的價值
高效的數據組織形式
面向主題的特性決定了數據倉庫擁有業務數據庫所沒法擁有的高效的數據組織形式,更加完整的數據體系,清晰的數據分類和分層機制。由於全部數據在進入數據倉庫以前都通過清洗和過濾,使原始數據再也不雜亂無章,基於優化查詢的組織形式,有效提升數據獲取、統計和分析的效率。
時間價值
數據倉庫的構建將大大縮短獲取信息的時間,數據倉庫做爲數據的集合,全部的信息均可以從數據倉庫直接獲取,數據倉庫的最大優點在於一旦底層從各種數據源到數據倉庫的ETL流程構建成型,那麼天天就會有來自各方面的信息經過自動任務調度的形式流入數據倉庫,從而使一切基於這些底層信息的數據獲取的效率達到迅速提高。
從應用來看,使用數據倉庫能夠大大提升數據的查詢效率,尤爲對於海量數據的關聯查詢和複雜查詢,因此數據倉庫有利於實現複雜的統計需求,提升數據統計的效率。
集成價值
數據倉庫是全部數據的集合,包括日誌信息、數據庫數據、文本數據、外部數據等都集成在數據倉庫中,對於應用來講,實現各類不一樣數據的關聯並使多維分析更加方便,爲從多角度多層次地數據分析和決策制定提供的可能。
歷史數據
記錄歷史是數據倉庫的特性之一,數據倉庫可以還原歷史時間點上的產品狀態、用戶狀態、用戶行爲等,以便於能更好的回溯歷史,分析歷史,跟蹤用戶的歷史行爲,更好地比較歷史和總結歷史,同時根據歷史預測將來。數據庫

相關文章
相關標籤/搜索