數據倉庫理論

1.數據倉庫系統組成

數據倉庫各組成部分以下:數據庫

image

1.1 數據倉庫

數據倉庫是整個數據倉庫環境的核心,是數據存放的地方和提供數據檢索的支持。相對於操做型數據庫來講,其特色就是對海量數據的支持和快速的檢索技術。數據結構

1.2 抽取工具

抽取工具把數據從各類各樣的存儲環境中提取出來,進行必要的轉化、整理,再存放到數據倉庫。工具

1.3 元數據

元數據是關於數據的數據,在數據倉庫中元數據位於數據倉庫的上層,是描述數據倉庫內數據的結構、位置和創建方法的數據。性能

通俗來說,是關於數據的數據,能夠看做是數據倉庫系統的「數據字典」,可是這個字典比傳統意義上的數據字典強大。他能夠幫助管理員和開發人員方便找到他們所關係的數據,並告訴用戶數據倉庫中有哪些數據,這些數據從哪裏來設計

1.4 數據集市

數據倉庫是構建數據倉庫時常常用到的一個詞彙。若是說數據倉庫是企業範圍的,收集關於整個組織的主題,如顧客、商品、銷售、資產和人員等方面的信息,那麼數據集市則是包含企業範圍數據的一個子集,例如:只包含銷售主題的數據。數據集市只存放某個主題的數據,其目的是減小數據處理量,使信息的利用更加快捷和靈活。3d

1.5 OLAP服務

OLAP服務是指對存儲在數據倉庫中的數據提供分析的一種軟件,它可以快速提供複雜數據查詢和彙集,並幫助用戶分析多維數據中的各維狀況。orm

1.6 數據報表、數據分析和數據挖掘

數據報表、數據分析和數據挖掘爲用戶產生的各類數據分析和彙總報表,以及數據挖掘結果。對象

2.ETL

ETL分別是Extract、Transform、Load三個單詞的首字母縮寫,也就是抽取、轉換、裝載。ETL是數據倉庫的靈魂。blog

2.1 數據抽取

數據抽取是將數據從各類原始的業務系統中讀取出來,這是全部工做的前提。數據抽取要作到既能知足決策的須要,又不影響業務系統的性能,因此進行數據抽取的時候須要制定相應的策略,包括抽取方式、抽取時機、抽取週期等內容。事務

2.2 數據轉換

數據轉換是按照預先設定的規則將抽取的數據進行轉換,使原本異構的數據格式可以統一塊兒來

例如:在業務系統中原本不存在的指標須要在轉換過程當中計算衍生出來。

2.3 數據裝載

數據裝載是將轉換完的數據按照計劃增量或所有導入到數據倉庫中。通常狀況下,數據裝載應該在系統完成了更新以後進行。

數據裝載包括:基本裝載、追加裝載、破壞性合併和建設性合併等方式。

3.數據倉庫和數據集市的關係

3.1 數據集市的類型

image

3.1.1 從屬型數據集市

所謂從屬就是指它的數據直接來自中央數據倉庫。這種結構能保持數據的一致性,一般會爲那些訪問數據倉庫十分頻繁的關鍵業務部門創建從屬數據集市,這樣能更好的提升查詢操做的反應速度

image

3.1.2 獨立性數據集市

獨立型數據集市的數據直接來自各個業務系統,用於解決個別部門較爲迫切的決策問題。它和企業級數據倉庫除了數據量和服務對象上存在差異外,其邏輯結構並沒有多大的區別,也許這就是數據集市被稱爲部門級數據倉庫的主要緣由。

image

3.2 數據倉庫與數據集市的區別

(1)數據倉庫向各個數據集市提供數據,前者是企業級的,規模較大,後者是部門級的,規模相對較小。

(2)若干部門的數據集市組合在一塊兒成爲一個數據倉庫。數據集市開發週期短、速度快,數據倉庫開發週期長、速度慢。

(3)從其數據特徵進行分析,數據倉庫採用範式設計,可是數據集市中的數據結構採用星型模式。一般數據倉庫的粒度要比數據集市的粒度細。

4.元數據及其管理

image

管理元數據主要負責開發、維護數據倉庫的人員使用。

4.維、維度表、事實表

4.1 維

維是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維。如:時間維、地理維等。

4.2 維度表

維度表能夠看做是用戶分析數據的窗口,維度表包含事實數據表中事實記錄的特性。

事實表與維度表的關係:

image

粒度:數據細化的級別,粒度越細,數據量越大,存儲所需的空間越大,查詢性能越慢

層次:舉例如:國家-省-市-縣等;年-季-月-周-日。

4.3 事實表

1)事務粒度事實表:好比股票按秒來變化;

2)週期快照:按天、按周、按月等;

3)累積快照事實表:記錄肯定週期的數據;

4)原子事實表:細粒度事實表;

5)彙集事實表:彙總事實表;

6)合併事實表;

7)旋轉事實表;

8)預鏈接彙集表;

9)非事實型事實表:沒有肯定的事實,存的是外鍵;

10)切片事實表:把一張大表切成一段時間的;

11)蜈蚣事實表:維度不少;

12)一致性事實

5.三種模型

5.1 星型模型

image

經過最大限度地減小數據存儲量以及聯合較小的維表來改善查詢性能。

5.2 雪花模型

image

雪花模型使用的是規範化數據,也就是說數據在數據庫內部是組織好的,以便消除冗餘,所以它可以有效地減小數據量

5.3 星座模型

image


數據倉庫由多個主題構成,包含多個事實表,而維表是公共的,能夠共享,這種模式能夠看作星型模式的聚集,於是稱做星系模式或者事實星座模式

相關文章
相關標籤/搜索