1:引言
上一篇介紹了數據倉庫的定義:面向主題的,集成的,不可修改的,隨時間不斷變化的用來更好的爲企業或組織決策分析的數據集合。
數據倉庫是區別於傳統操做型數據庫的數據集合,主要應用於分析型數據操做,支持企業全局決策分析。但要實現這一應用的目的
單一的數據倉庫是沒法實現的,須要創建一個數據倉庫系統。
基於數據倉庫系統,完成數據從操做型數據庫等數據源到數據倉庫或者數據集市的流動,傳輸,以支持前臺的決策分析處理工做。
2:數據倉庫系統的體系結構前端
從操做型數據庫,文件,網絡等數據源,經過ETL集成工具進行數據的抽取,清洗,轉換,加載等工做,進入到數據倉庫和數據集市
中,進而經過olap服務器支持前臺的多維分析,查詢報表,數據挖掘等操做。
3:組成要素
數據倉庫系統是由數據源(操做型數據庫,文件,網絡),集成工具(抽取,清洗,轉換,加載),數據倉庫與數據倉庫服務器,數數據庫
據集市olap服務器,元數據,元數據管理工具,前臺分析工具(進行報表查詢,多維分析,數據挖掘)等組成
a:數據源
數據源就是提供初始數據的地方,是數據倉庫系統的基礎,一般包括企業內部數據和外部數據,內部數據包括各類操做型數據庫中的
數據以及文檔數據,外部數據包括各種法律法規,市場信息,競爭對手以及各類統計數據和文檔。
b:數據工具
即ETL工具,包括數據抽取,清洗,轉換,加載等工做。
數據抽取:就是從不一樣的數據源中選擇數據倉庫所需的數據,這些數據可能具備的特色是:來自不一樣的平臺,不一樣結構,不一樣類型等。
數據清洗:因爲數據來自於不一樣的數據源,所以數據質量難以保證,例如存在數據不一致,量綱不一樣,值確實等。就須要對抽取到的服務器
數據進行抽取。
數據轉換:將面向應用的數據轉換成面向主題的數據。
數據加載:將數據裝入到數據倉庫中去。
補充:ETL工做是BI/DW項目的核心和靈魂,它按照統一的規則集成並提升數據的價值,是負責完成數據從數據源向目標數據倉庫轉網絡
化的過程,是實施數據倉庫的重要步驟。
c:數據倉庫服務器
負責管理數據倉庫中的數據,爲整個企業的數據分析提供一個完整,統一的視圖。
d:olap服務器
使用olap服務器對分析須要的數據按照多維數據模型進行再次重組,以支持用戶多角度,多層級的數據分析。
e:數據集市
數據集市是一個小型的數據倉庫,一般具備較少的主題域,是部門級的數據倉庫,面向部門級的應用。
f:前臺分析工具
包括各類數據分析工具,如報表工具,olap分析工具,數據挖掘工具。各類分析工具既能夠從數據倉庫中獲取數據,還能夠從數據工具
集市中獲取數據。blog
g:元數據
元數據就是整個數據倉庫的全部描述性信息,即關於數據的數據。ETL負責創建元數據。
總結:數據從數據源到將最終的分析結果呈現給用戶,須要經歷一下幾個步驟:
1:從各類數據源中抽取合適的,須要的數據
2:對數據進行清洗,加工,轉換,重構等預處理工做。
3:創建高效,海量的企業數據倉庫
4:針對特定的分析主題,創建專門的數據集市
5:針對特定的業務需求,建立前端數據展示應用,或者開展專題分析項目。
4:數據集市
1:數據集市的定義
數據集市就是面向部門或者應用的小型數據倉庫,相比於企業級數據倉庫,具備較少的主題域。
2:數據集市的分類
按照數據的獲取方式,將數據集市分爲從屬型數據集市和獨立型數據集市
從屬型數據集市就是從中央數據倉庫中獲取數據,這類數據集市之間是互聯的。
獨立型數據集市就是直接從操做型數據庫等數據源中獲取數據,這類數據集市之間沒有聯繫,是相互獨立的。
3:兩種創建數據集市的思想
兩種數據集市對應着兩種創建數據集市的思想,即「自頂向下」和「自底向上」的思想
自頂向下:就是先建立一箇中央數據倉庫,而後按照各個特定部門的特定需求創建多個從屬型數據集市
自底向上:就是先以最小的投資,根據部門的實際需求,建立多個獨立的數據集市,而後不斷擴充,不斷完善,最終造成一個
中央數據倉庫。
4:數據集市的做用
數據集市通常包含着某一特定業務內容的數據,所以能夠按照業務的分類來組織,也能夠按照數據倉庫的主題,地理位置,企業部門
來組織。這樣,數據集市就能夠知足企業,部門,我的不一樣層次,不一樣範圍的人員對數據的需求。
數據集市能夠分佈在不一樣的物理平臺,也能夠邏輯分佈在同一物理平臺。
5:數據集市與數據倉庫的區別
數據集市是按照部門或者業務分類進行組織的小型數據倉庫,而數據倉庫則是面向整個企業的。兩者的不一樣,一是主題域的不一樣,
二是數據規模的不一樣,三是訪問效率的不一樣。
5:元數據
1:元數據的定義
元數據就是關於數據的數據,關係型數據庫中的數據字典就是元數據中的一種。
2:元數據的做用
元數據描述數據的結構,來源,抽取和轉換規則,存儲,描述操做數據的進程和應用程序的結構,功能等。其主要目的就是提供數據
資源的全面指南,使數據倉庫管理員和開發人員可以清楚的瞭解到數據存放在哪裏,有什麼數據,來源於哪裏,如何使用和管理這些
數據。
3:元數據的分類
按照使用元數據的用戶分類,能夠分爲技術元數據和業務元數據。技術元數據描述元數據的技術細節,只要提供給開發人員和管理人接口
員;業務元數據主要讓業務人員可以明白數據倉庫中的數據。
按照來源的正式程度分類,分爲正式元數據和非正式元數據,前者是通過討論並由決策者肯定的元數據,後者是一些規範,制度,
常識組成,沒有標準的形式。
按照功能分類,分爲數據源元數據,ETL數據,ODS數據,DW數據,報表元數據,接口數據文件格式元數據,商業元數據。進程