1:引言
a:人類對數據的管理經歷了人工管理,文件系統管理,數據庫系統管理三個階段,數據庫管理實現了對數據的永久存儲,有序組
織和共享。
b:在數據庫系統管理階段的早期,人們對數據的使用主要集中在crud。
c:當數據積累到必定程度時,人們但願對數據進行統計,多維分析,甚至挖掘來產生更多的價值,這時候,傳統的操做型數據庫
已經沒法知足這一需求,所以便產生了數據倉庫。
d:傳統的數據庫與數據倉庫在存放的數據特徵,性能要求,應用範圍,面向人員等方面均有差異。
2:兩種數據處理模式:操做性數據處理和分析型數據處理
計算機系統中存在着兩種不一樣的數據處理模型:操做性數據處理和分析型數據處理,又分別稱爲聯機事務處理和聯機分析處理。
A: 操做型數據處理:是指對數據庫聯機的平常操做,主要完成數據的收集,整理,存儲以及增刪改查等操做,主要由通常人員和
基層管理人員完成。
B: 分析型數據處理:是指對數據的再加工,一般是對海量的歷史數據查詢和分析,從中獲取信息,主要由分析人員和中高級管理
人員完成。
3:兩類數據:操做型數據和分析型數據
兩種數據操做模式對應兩類數據:操做型數據和分析型數據。
操做型數據:細節的,當前的,可更新的,事務驅動,一次操做數據量小,操做簡單,一個時刻操做一個單元
分析型數據:綜合的,歷史的,可修改的,分析驅動,一次操做數據量大,計算複雜,一個時刻操做一個集合
操做型數據:主要應用於企業的平常事務處理,數據庫中存放的是細節的數據,也是當前的數據,反映的是最近一次修改的結
果。
對數據庫的操做主要是數據的增刪改查,數據庫中的數據能夠修改,數據的組織以方便事務處理,提升事務性能處理
爲主。
分析型數據處理:主要用於企業的管理工做,數據庫中主要存放歷史數據和綜合數據,當數據的操做主要集中在查詢和統計分
析時,
須要涉及大量數據,數據的組織方式主要以方便查詢分析爲主要目標,爲了提升查詢效率容許存在必定的數據冗餘。
4:數據的侷限性
傳統的數據庫在操做型數據處理上取得了巨大的成功,可是在分析型數據處理上遇到了瓶頸。
1):數據的分散。操做型數據處理每每只須要涉及一個部門業務或者一個系統數據,所以如今的企業數據是分散在各個操做
型數據庫,
而分析型操做每每面向整個企業,跨部門進行。
2):數據不一致問題。從各個操做型數據庫中抽取數據會存在數據不一致的問題,好比同名異義,異名同義,單位不統一,
字長不一致等,
所以在分析操做以前必須首先對這些數據進行預處理。
3):歷史數據問題。分析型數據操做通常須要大量的歷史數據,但操做型數據庫通常存放的是短時間的數據。
4):數據粒度的問題。分析型操做每每關注的是綜合數據,可是操做型數據庫每每存放的是細節數據,若是分析前對細節數
據進行綜合,會
嚴重影響分析的效率。
所以,爲了克服以上困難,使兩種數據操做都能有效的進行,就產生了數據倉庫。
總結:數據庫和數據倉庫分工不一樣,數據庫存放操做型數據,用於操做型數據處理,關注事務處理效率;
數據倉庫存放分析型數據,用於分析型數據處理,關注的是分析和查詢的效率;
二者功能不一樣,用途不一樣,所以結構也會不一樣。
5:數據倉庫的定義
數據倉庫是面向主題的,集成的,不可更新的,隨時間不斷變化的用來更好的支持企業或組織決策分析的數據集合。
數據倉庫的特徵:
面向主題的
集成的
不可更新的
隨時間不斷變化的
數據倉庫的用途:面向企業決策分析。
簡單來說,數據倉庫就是一種面向決策主題的,從多個數據源集成數據的,擁有當前數據,細節級和綜合級的歷史數據,以查詢
和分析爲主的
數據庫系統,目的是支持企業決策。
6:數據倉庫數據的特徵
1):面向主題的
面向主題的數據組織方式是相對面嚮應用的數據組織方式而言的。
什麼是面向主題的數據組織方式?
面向主題的數據組織方式就是在較高層次上對分析對象的數據的一個完整的,一致的描述,能完整,統一的刻畫各個分析對
象所涉及的各項
數據,以及數據之間的聯繫。
企業在信息化建設時一般會按照業務類別來創建子系統,好比採購,銷售,庫存,人事,財務,子系統背後就是各個操做型
數
據庫。基於這樣的
數據環境,若是須要對「顧客」這一對象進行相關的分析處理,就須要從各個操做型數據庫中提取數
據,
即
使可以取出來也會面臨
各類問題,好比數據不一致。這就是面向應用的數據組織方式,顯然不能知足分析須要。
面向主題就是根據分析的須要,將分析對象所涉及的數據以及數據之間的聯繫從企業各個方面進行收集,匯聚,造成一個完
整
的
,一致的,統一的
數據集合。這裏的主題就是分析對象,好比「顧客」,「商品」,「供應商」。
面向應用側重於作什麼,面向主題側重於誰來作。
面向主題的數據組織方式強調的就是,要造成關於主題一致的信息集合。
2):集成的
因爲數據倉庫中的數據是按照主題組織的,所以所涉及的數據來源於各個操做性數據庫,數據文件胡總和網絡。因爲數據來
源
不一樣,就可能存在
不一致的狀況,好比同名異義,異名同義,單位不一樣,字長不一樣,所以在進入數據倉庫前就須要對數據
進行
清
洗,轉換等操做。又由於以前的數據
是面向應用的,所以須要將數據從面向應用到面向主題進行轉變。而數據倉庫中
不只有
細節數據,還須要有大量的綜合數據,因此就須要對數據進行
綜合,計算。完成這幾步後,數據才能被加載到數據倉
庫中去。
3):不可更新的
不可更新是指數據一旦進入到數據倉庫中去,就不容許修改,而且會被長期保留。
數據倉庫中的數據反映的是一段至關長時間內的歷史數據,通常會按照必定的週期進行刷新,加載。
4):隨時間不斷變化的
數據倉庫會隨着時間的變化不斷增長新的數據,由於數據倉庫中的數據是來源於操做型數據庫等數據源的歷史數據和綜合性
數據,因此須要按期去捕獲
這些數據源中的新數據,將其加載到數據倉庫中去。
數據倉庫中的數據會有必定的存儲期限,當超過這個期限後,數據就會被刪除。
數據倉庫中有大量的綜合數據,而不少數據是按照時間進行組織的,好比日記錄,月記錄,因此就須要按照必定的時間周
期,
定
期加載這些數據。
7:數據倉庫的功能
數據倉庫是一種數據存儲,將不一樣來源的異構數據進行清洗,轉換,加工,集成並存儲起來,支持分析查詢需求,從而爲企業決策提
供支持。