數據倉庫(DW)是一個 面向主題的、集成的、穩定的、隨時間變化的數據的集合,以用於支持管理決策過程。前端
創建數據倉庫的目的是爲企業高層系統地組織、理解和使用數據以便進行戰略決策。數據庫
數據倉庫有如下幾大特徵:數組
(1)面向主題性能優化
主題是指用戶使用數據倉庫進行決策時所關心的重點領域。數據倉庫經過一個個主題將多個業務系統的數據加載到一塊兒,爲了各個主題(如:用戶、訂單、商品等)進行分析而建,操做型數據庫是爲了支撐各類業務而創建。服務器
(2)集成性數據結構
數據倉庫會將不一樣源數據庫中的數據彙總到一塊兒,可是並非簡單的複製,而是通過了抽取、篩選、清理、轉換、綜合等工做。工具
(3)穩定性即非易失的性能
數據倉庫的數據是爲了企業數據分析而創建,因此數據被加載後通常會保存較長時間。數據倉庫中的數據大多表示過去某一時刻的數據,主要用於查詢、分析,不會常常進行修改、添加等操做。開發工具
(4)隨時間而變化即時變的大數據
數據倉庫存儲的是歷史數據,它會按期從操做型應用系統中接收新的數據。因此數據倉庫中的數據通常都有個時間維度。數據倉庫實際是記錄了系統的各個瞬時,並經過瞬態鏈接起來造成動畫(即數據倉庫的快照集合),從而在數據分析時再現系統運動的全過程。
一般數據倉庫的數據是來自各個業務應用系統,而後業務系統中的數據形式是多種多樣的,多是Oracle、MySQL、SQL Server 等關係數據庫裏的結構化數據,也有多是文本、CSV 等平面文件或Word、Excel 文檔中的非結構化數據,還有多是 HTML、XML 等自描述的半結構化數據。這些數據通過一系列的 數據抽取、轉換、清洗,最終以一種統一的格式裝載進數據倉庫。數據倉庫裏的數據做爲分析用的數據源,提供給後面的 即系查詢、分析系統、數據集市、報表系統、數據挖掘系統等。
使用數據倉庫有如下好處:
數據倉庫雖然是從傳統數據庫系統發展而來,可是二者仍是存在着諸多差別。
數據倉庫系統以數據倉庫爲核心,將各類應用系統集成在一塊兒,爲統一的歷史數據分析提供堅實的平臺,經過數據分析與報表模塊的查詢和分析工具 OLAP (聯機分析處理)、決策分析、數據挖掘完成對信息的提取,以知足決策的須要。
整個數據倉庫系統分爲:源數據層、數據存儲和管理層、OLAP 服務器層、前端分析工具層。
數據倉庫系統各組成部分:
ETL 用來描述 數據抽取、清洗轉換 和 加載 的過程。ETL按照統一的規則集成並提升數據的質量,是將數據從數據源向目標數據倉庫(DW)轉化的過程。ETL 是商務智能/數據倉庫的核心和靈魂。
1. 數據抽取
數據抽取是從各個不一樣的數據源抽取數據並存儲到操做數據存儲(Operational Data Store,ODS)中的過程。
2. 數據清洗轉換
數據清洗轉是指按照預先設計好的規則將抽取的數據進行轉換,使原本異構的數據格式能統一塊兒來。
數據清洗轉換包括 數據清洗 和 數據轉換 兩個過程。
數據清洗 是指對空數據、缺失數據進行補缺操做,對非法數據進行替換,保證數據的正確性。
數據轉換 是指對數據進行整合、拆分和變換。
3. 數據裝載
數據裝載是指將清洗轉換完的數據加載到數據倉庫中。數據加載的方式主要有:
數據集市(Data Mart)是完整的數據倉庫的一個子集,爲了特定的應用目的或應用範圍,而從數據倉庫中獨立出來的一部分數據,也能夠成爲部門數據或主題數據。而數據倉庫正式由其全部的數據集市有機組合而成的的。且各數據集市間應協調一致,知足整個企業分析決策的須要。
創建數據集市與數據倉庫,通常是採用 "自頂向下" 和 「自下而上」 相結合的設計思想。
OLTP(聯機事務處理) 是傳統關係型數據庫的重要應用之一,主要是基本的、平常的事務處理,對響應要求比較高,強條的是密集數據的更新處理的性能和系統的可靠性及效率。
OLTP 是事件驅動、面向應用的。
OLTP主要特色:
對響應時間要求很是高;
用戶數量很是龐大,主要是操做人員;
數據庫的各類操做基於索引進行;
對數據庫的事務均已實現定義,查詢簡單,通常不涉及多表鏈接操做。
OLAP(聯機分析處理) 是一種多維分析技術,用來知足決策用戶在大量的業務數據中,從多角度探索業務活動的規律性、市場的運做趨勢的分析需求,並輔助他們進行戰略發展決策的制定。
OLAP 系統按照數據存儲方式能夠分爲:
OLAP 工具是針對特定問題的聯機數據訪問與分析,它經過多維的方式對數據進行分析、查詢和報表。
多維分析是指對以多維形式組織起來的數據採起切片、切換、鑽取、旋轉等各類分析動做,以求剖析數據,使用戶能從多個角度、多個側面地觀察數據庫中的數據,從而深刻理解包含在數據中的信息。
推薦閱讀: