1、數據倉庫的概念 - 元數據前端
按照傳統的定義,元數據(Metadata)是關於數據的數據。在數據倉庫系統中,元數據能夠幫助數據倉庫管理員和數據倉庫的開發人員很是方便的找到他們所關心的數據;元數據是描述數據倉庫內數據的結構和創建方法的數據,可將其按用途的不一樣分爲兩類:技術元數據和業務元數據。算法
技術元數據是存儲關於數據倉庫系統技術細節的數據,是用於開發和管理數據倉庫使用的數據,主要包括如下信息:數據庫
1)數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容;設計模式
2)業務系統、數據倉庫和數據集市的體系結構和模式;數組
3)彙總用的算法,包括度量和維定義算法,數據粒度、主題領域、彙集、彙總、預約義的查詢與報告;安全
4)由操做環境到數據倉庫環境的映射,包括源數據和它們的內容、數據分割、數據抽取、清洗轉換規則和數據刷新規則、安全(用戶受權和存取控制)。服務器
2、數據倉庫的概念 - 聯機處理分析(OLAP)數據結構
簡寫爲OLAP,隨着數據庫技術的發展和應用,數據庫存儲的數據量從20世紀80年代的兆(M)字節及千兆(G)字節過渡到如今的兆兆(T)字節和千兆兆(P)字節,同時,用戶的查詢需求也愈來愈複雜,涉及的已不只是查詢或操縱一張關係表中的一條或幾條記錄,並且要對多張表中的千萬條記錄的數據進行數據分析和信息綜合,關係數據庫系統已不能所有知足這一要求。在國外,很多軟件廠商採起了發展其前端產品來彌補關係數據庫管理系統的不足,力圖統一分散的公共應用邏輯,在短期內響應非數據處理專業人員複雜查詢要求。工具
數據倉庫與OLAP的關係是互補的,現代OLAP系統通常以數據倉庫做爲基礎,即從數據倉庫中抽取詳細數據的一個子集並通過必要的彙集存儲到OLAP存儲器中供前端分析工具讀取。OLAP系統按照其存儲器的數據存儲格式能夠分爲關係OLAP(RelationalOLAP,簡稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡稱MOLAP)和混合型OLAP(HHybridOLAP,簡稱HOLAP)三種類型。性能
1)ROLAP
ROLAP將分析用的多維數據存儲在關係數據庫中並根據應用的須要有選擇的定義實視圖做爲表也存儲在關係數據庫中。沒必要要將每個SQL查詢都做爲實視圖保存,只定義那些應用頻率比較高、計算工做量比較大的查詢做爲實視圖。對每一個針對OLAP服務器的查詢,優先利用已經計算好的實視圖來生成查詢結果以提升查詢效率。同時做爲ROLAP存儲器的RDBMS也針對ROLAP做相應的優化,好比並行存儲、並行查詢、並行數據管理、基於成本的查詢優化、位圖索引、SQL的OLAP擴展(cube,rollup)等等。
2)MOLAP
MLOAP將OLAP分析用到的多維數據物理上存儲爲多維數組的形式,造成「立方體」的結構。維的屬性值被映射成多維數組的下標值或下標的範圍,而總結數據做爲多維數組的值存儲在數組的單元中。因爲MOLAP採用了新的存儲結構,從物理層實現起,所以又稱爲物理OLAP(PhPhysicalOLAP);而ROLAP主要經過一些軟件工具或中間軟件實現,物理層仍採用關係數據庫的存儲結構,由於稱爲虛擬OLAP(VirVirtualOLAP)。
3)HOLAP
因爲MOLAP和ROLAP有着各自的優勢和缺點(以下表所示),且它們的結構迥然不一樣,這給分析人員設計OLAP結構提出了難題。爲此一個新的OLAP結構--混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP兩個結構的優勢結合起來。迄今爲止,對HOLAP尚未一個正式的定義。但很顯然,HOLAP結構不該該是MOLAP和ROLAP結構的簡單組合,而是這兩種結構技術優勢的有機結合,能知足用戶各類複雜的分析請求。
3、數據倉庫的概念 - 維度
管理人員每每但願從不一樣的角度來審視業務的狀況,好比從時間、地域、產品、客戶等來看收入、利潤、支出等業務統計數字。每個分析的角度能夠叫作一個維,所以,咱們把多角度分析方式稱爲多維分析。之前,每個分析的角度須要製做一張報表。在線多維分析工具的主要功能,是根據用戶經常使用的多種分析角度,事先計算好一些輔助結構,以便在查詢時能儘快訪問到所要的彙總數字,並快速地從一維轉變到另外一維,將不一樣角度的信息以數字、直方圖、餅圖、曲線等等方式展示在用戶面前。
4、數據倉庫的概念 - 切片/切塊/鑽取/旋轉/轉軸
1)切片和切塊(Slice and Dice)
在多維數據結構中,按二維進行切片,按三維進行切塊,可獲得所須要的數據。每次都是沿其中一維進行分割稱爲分片,每次沿多維進行的分片稱爲分塊。
2)鑽取(Drill)
鑽取包括向下鑽取(Drill-down)和向上鑽取(Drill-up),鑽取的深度與維所劃分的層次相對應。
3)旋轉(Rotate)/轉軸(Pivot)
經過旋轉能夠獲得不一樣視角的數據。
5、數據倉庫的概念 - 星型/雪花型
1)星形模式
在不考慮緩慢變換的狀況下,大多數事實表的設計方式:id dim1id dim2id dim3id ...measure1 measure2 measure3...
在不考慮緩慢變換的狀況下,大多數維度表的設計方式:level1id level1name level1attributename1,level1attributename2...level2id level2name level2attributename1,level2attributename2.. levelnid (PK) levelnname levelnattributename1,levelnattributename2
2)雪花模式
雪花模式是對星型模式維表的進一步層次化,將某些維表擴展成事實表,這樣既能夠應付不一樣級別用戶查詢,又能夠將源數據經過層次間的聯繫向上綜合,最大限度的減小數據存儲量,於是提升了查詢功能。雪花模式的維度表是基於範式理論的,所以是介於第三範式和星形模式之間的一種設計模式,一般是部分數據組織採用第三範式的規範結構,部分數據組織採用星形模式的事實表和維表結構。在某些狀況下,雪花模式的造成是因爲星形模式在組織數據時,爲減小維度層次和處理多對多關係而對數據表進行規範化處理後造成的。
雪花模式的優勢是:
- 在必定程度上減小了存儲空間;
- 規範化的結構更容易更新和維護。
一樣,雪花模式也存在很多缺點:
- 雪花模式比較複雜,用戶不容易理解;
- 瀏覽內容相對困難;
- 額外的鏈接將使查詢性能降低。
在數據倉庫中,一般不推薦「雪花化」。由於在數據倉庫中,查詢性能相對OLTP系統來講更加被重視,而雪花模式會下降數據倉庫系統的性能。