起源:數據倉庫規模大、週期長,一些規模比較小的企業用戶難以承擔。所以,做爲快速解決企業當前存在的實際問題的一種有效方法,獨立型數據集市成爲一種既成事實。獨立型數據集市是爲知足特定用戶(通常是部門級別的)的需求而創建的一種分析型環境,它可以快速地解決某些具體的問題,並且投資規模也比數據倉庫小不少。數據庫
數據集市能夠理解爲是一種"小型數據倉庫",它只包含單個主題,且關注範圍也非全局,數據集市也叫數據市場,是一個從操做的數據和其餘的爲某個特殊的專業人員團體服務的數據源中收集數據的倉庫。數據是從企業範圍的數據庫、數據倉庫中抽取出來的。重點在於他迎合了專業用戶羣體的特殊需求,其面向部門級業務或某一個特定的主題、良好解決了靈活性和性能之間的矛盾。數據結構
數據集市能夠分爲兩種架構
一種是獨立數據集市(independent data mart),這類數據集市有本身的源數據庫和ETL架構;工具
一種是非獨立數據集市(dependent data mart),這種數據集市沒有本身的源系統,它的數據來自數據倉庫。性能
當用戶或者應用程序不須要/沒必要要/不容許用到整個數據倉庫的數據時,非獨立數據集市就能夠簡單爲用戶提供一個數據倉庫的"子集"。優化
數據集市的特徵主要有:ui
數據倉庫(Data Warehouse) 是一個面向主題的(Subject Oriented) 、集成的( Integrate ) 、相對穩定的(Non -Volatile ) 、反映歷史變化( Time Variant) 的數據集合用於支持管理決策。對於數據倉庫的概念咱們能夠從兩個層次予以理解,首先,數據倉庫用於支持決策,面向分析型數據處理,它不一樣於企業現有的操做型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成後按照主題進行了重組,幷包含歷史數據,並且存放在數據倉庫中的數據通常再也不修改。(注:該定義來自於著名的數據倉庫專家W. H. Inmon 的著做《Buildingthe Data Warehouse》一書)。 spa
數據倉庫是企業級的,能爲整個企業各個部門的運行提供決策支持手段;.net
數據集市則是一種微型的數據倉庫,它一般有更少的數據,更少的主題區域,以及更少的歷史數據,所以是部門級的,通常只能爲某個局部範圍內的管理人員服務,所以也稱之爲部門級數據倉庫。設計
|
數據倉庫 |
數據集市 |
數據的來源 |
生產系統、外部數據等 |
數據倉庫 |
範圍規模 |
企業級 |
部門級或工做組級 |
主題 |
以企業爲主題 |
以部門或特殊的分析爲主題 |
數據粒度 |
最細的粒度 |
較粗的粒度 |
數據結構 |
第三範式,規範化結構 |
星型模型、雪花模型、星座模型 |
歷史數據 |
大量的歷史數據 |
適度的歷史數據 |
優化 |
處理海量數據、數據探索 |
便於訪問和分析、快速查詢 |
索引 |
高度索引 |
高度索引 |
由於倉庫終端用戶直接與數據集市進行交互,因此數據集市的建模是捕獲終端用戶業務需求的最有效工具之一。數據集市的建模過程取決於許多因素。下面描述了三個最重要的:
數據集市的建模是終端用戶驅動的。終端用戶必須參與數據集市的建模過程,由於他們顯然是要使用該數據集市的人。由於您應指望終端用戶徹底不熟悉複雜的數據模型,因此應該將建模技術和建模過程做爲總體進行組織,以便使複雜性對終端用戶透明。
數據集市的建模是由業務需求驅動的。數據集市模型對於捕獲業務需求十分有用,由於它們一般由終端用戶直接使用,且易於理解。
數據集市的建模極大地受到了數據分析技術的影響。數據分析技術能夠影響所選擇的數據模型的類型及其內容。目前,有幾種經常使用的數據分析技術:查詢和報表製做、多維分析以及數據挖掘。
若是僅僅意圖提供查詢和報表製做功能,那麼帶有正規(normalized)或非正規(denormalized)數據結構的 ER 模型就是最合適的。維度數據模型也多是較好的選擇,由於它是用戶友好的,並具備更好的性能。若是其目標是執行多維數據分析,那麼維度數據模型就是這裏的唯一選擇。然而,數據挖掘一般在可用的最低細節級(level of detail)工做得最好。所以,若是數據倉庫是用於數據挖掘的,就應該在模型中包含較低細節級(level of detail)的數據。