商業智能學習系統

在進行數據分析以前,咱們必須瞭解相關的基礎理論知識數據庫

數據倉庫的理論知識性能

1:數據倉庫的定義編碼

  數據倉庫是一個面向主題的、集成的、穩定的,反映歷史變化的,隨着時間的流逝發生變化的集合,它主要用來支持企業管理人員的決策分析spa

1.1 面向主題設計

根據原系統業務數據的特色進行主題的抽取和肯定每一個主題所包含的數據內容,例如典型的主題包括:客戶主題、產品主題、財務主題等,而客戶主題包括:客戶基本信息、客戶信用信息、客戶資產信息等內容。在分析數據倉庫主題的時候,通常的方法是先肯定幾個基本的主題,而後再將範圍擴大,最後再逐步求精,如圖3-2所示。3d

 
圖3-2  面向主題的方法

1.2 集成性blog

面向操做型的數據庫一般是異構的、而且相互獨立,因此沒法對信息進行歸納和反映信息的本質。而數據倉庫中的數據是通過源數據的抽取、清洗、轉換、加載獲得的,因此爲了保證數據不存在二義性,必須對源數據進行編碼的統一和必要的彙總,以保證數據倉庫內數據的一致性。數據倉庫在經歷數據集成階段後,使數據倉庫中的數據都遵循統一的編碼規則,而且消除許多冗餘數據。事務

集成通常有以下兩種形式:ci

(1)數據的集成開發

當數據從操做型數據傳向數據倉庫時,數據就會被集成,如圖3-3所示。

 
(點擊查看大圖)圖3-3  數據的集成

(2)編碼的集成

當數據倉庫是從原有分散的源數據庫抽取出來的時候,爲了消除編碼的不一致性,須要將這些來自不一樣數據源的數據編碼集成起來,使之遵循統一的編碼規則,如圖3-4所示。

 
圖3-4  編碼的集成

1.3 穩定性

數據倉庫中的數據反映的都是一段歷史時期的數據內容,它的主要操做是查詢、分析而不進行通常意義上的更新,一旦某個數據進入到數據倉庫後,通常狀況下數據會被長期保留,當超過規定的期限時纔會被刪除。一般數據倉庫須要作的工做就是加載、查詢和分析,通常不進行任何修改操做,是爲了企業高層人員決策分析之用,如圖3-5所示。

 
圖3-5  數據的加載

 

1.4 反映歷史變化

操做型數據庫主要反映某一時間段內的數據,而數據倉庫的目標就是對企業的發展趨勢做出分析和預測。數據倉庫不斷從OLTP數據庫中得到變化的數據,從而造成分析和預測須要的歷史數據,因此通常數據倉庫中數據表的鍵碼都含有時間鍵,以標明數據的歷史時期信息,而後不斷增長新的數據內容。一般來講,數據倉庫包含的時間期限大概是5~10年,當超出規定的期限時,須要刪除這些過期的數據。經過這些歷史信息能夠對企業的發展歷程和趨勢做出分析和預測。同時要清楚,數據倉庫的建設須要大量的業務數據做爲積累,並將這些寶貴的歷史信息通過加工、整理,最後提供給決策分析人員,這是數據倉庫建設的根本目的,如圖3-6所示。

 
圖3-6  操做型數據庫和數據倉庫的區別

 

數據倉庫和數據庫的區別

下面用一個圖例來講明數據倉庫與數據庫的不一樣之處。數據庫生產系統主要是面向應用的、事務型的數據處理,通常來講具備實時性較高,數據檢索量較小,普通用戶的數量較大等特色。而數據倉庫系統主要面向主題的、分析型的數據處理,具備實時性要求不高,數據檢索量較大,主要針對特殊的用戶羣體(通常是企業高層領導、決策分析人員等),用戶的數量較小等特色。其中事務型和分析型處理數據是有區別的。事務型處理數據通常來講對性能的要求較爲嚴格,數據是事務驅動的,主要面向應用,存儲的通常都是即時性、細節性的數據,數據是可更新的。對於分析型處理數據,通常來講,對性能的要求較高,數據是分析驅動的,主要面向決策分析,存儲的通常都是歷史、彙總性的數據,數據是不可更新的。事務型處理數據和分析型處理數據的區別如圖3-7所示。

 
圖3-7  事務型處理數據和分析型處理數據的區別

數據庫生產系統和數據倉庫決策系統的區別如圖3-8所示。

 
圖3-8  數據庫生產系統和數據倉庫決策系統的區別

筆者認爲:數據倉庫是區別於通常數據庫存儲的另一種數據組織方式。它以面向主題的形式進行數據存儲,同時只有數據插入的操做,而沒有數據更新和刪除的動做。數據倉庫實際上就是一個過程,而非某一個產品,不一樣的企業在構建數據倉庫系統的時候,須要企業相關業務人員和數據倉庫開發設計人員在各個部門的配合下共同建設。