1、數據倉庫數據庫
關於數據倉庫概念的標準定義業內承認度比較高的,是由數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的「Building the Data Warehouse」(《創建數據倉庫》)一書中所提出:分佈式
中文定義:數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理決策。ui
英文定義:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.spa
2、主題設計
主題是與傳統數據庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的抽象。每個主題對應一個宏觀的分析領域。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。面向主題的數據組織方式, 就是在較高層次上對分析對象數據的一個完整而且一致的描 述,能刻畫各個分析對象所涉及的企業各項數據,以及數據之間的聯繫。所謂較高層次是相 對面嚮應用的數據組織方式而言的, 是指按照主題進行數據組織的方式具備更高的數據抽象 級別。 與傳統數據庫面向應用進行數據組織的特色相對應, 數據倉庫中的數據是面向主題進行組織的。主題是根據分析的要求來肯定的。這與按照數據處理或應用的要求來組織數據是不一樣的。對象
3、主題域blog
主題域一般是聯繫較爲緊密的數據主題的集合。能夠根據業務的關注點,將這些數據主題劃分到不一樣的主題域。主題域的肯定必須由最終用戶和數據倉庫的設計人員共同完成。ci
4、主題域、主題、實體間關係io
主題設計是對主題域進一步分解,細化的過程。主題域下面能夠有多個主題,主題還能夠劃分紅更多的子主題,而實體則是不可劃分的最小單位。主題域、主題、實體的關係以下圖所示:打包
5、關於主題域的爭議
曾經在看到過關於主題域的另一個定義方式:「主題域是對某個主題進行分析後肯定的主題的邊界」。相關內容以下文所示:
主題域是對某個主題進行分析後肯定的主題的邊界。分析主題域,肯定要裝載到數據倉庫的主題是 信息打包技術的第一步。而在進行數據倉庫設計時,通常是一次先創建一個主題或企業所有主題中的一部分,所以在大多數數據倉庫的設計過程當中都有一個主題域的 選擇過程。主題域的肯定必須由最終用戶和數據倉庫的設計人員共同完成。
好比,對於Adventure Works Cycle這種類型的公司管理層須要分析的主題通常包括供應商主題、商品主題、客戶主題和倉庫主題。其中商品主題的內容包括記錄超市商品的採購狀況、商品 的銷售狀況和商品的存儲狀況;客戶主題包括的內容可能有客戶購買商品的狀況;倉庫主題包括倉庫中商品的存儲狀況和倉庫的管理狀況等,如圖3-31所示。
圖3-31 根據業務狀況肯定的分析主題
肯定主題邊界實際上須要進一步理解業務關係,所以在肯定整個分析主題後,還須要對這些主題進行初步的細化才便於獲取每個主題應該具備的邊界。對於圖3-31的4個主題及其在企業中的業務關係能夠肯定邊界如圖3-32所示。
圖3-32 主題域的劃分
通過對以上內容深刻分析,發現此定義與:」主題域一般是聯繫較爲緊密的數據主題的集合「並不矛盾,只是所站的視角不一樣,「數據主題集合」的觀點從數據着眼,前提是已經通過分析、梳理列出全部可能的數據主題,此處數據主題是細粒度的,是從微觀到宏觀;「邊界論」的觀點中,某個主題是分析的主題,是宏觀概念,而非數據主題。
6、未完待續
分佈式數據倉庫數據存儲模型設計進行中,後續會持續更新,請關注QQ羣:分佈式數據倉庫建模 398419457。