數據倉庫學習筆記(二)

第二章  數據倉庫環境數據庫

    上一章的學習中,大致瞭解了什麼是體系結構話環境,這一章就數據倉庫的一些細節進行了講解。學習

    這裏我想對數據倉庫下一個定義:數據倉庫是一個面向主題的、集成的、非易失的、隨時間變化的用來支持管理人員決策的數據集合。數據倉庫是體系結構化環境的核心,是決策支持系統(DSS)處理的基礎,與傳統的數據環境相比,DDS分析員可以更容易的在數據庫環境中進行工做。編碼

    下面分開來說一下我對數據倉庫這四個特色的理解:設計

    1. 數據倉庫的面向主題性。傳統的操做型系統是圍繞系統的功能性應用來進行組織的,例如對於一個保險公司來講,他的應用問題多是人壽保險、健康保險、汽車保險、意外傷亡保險等,對於每一種保險,可能都會創建一張表用來存放相應應用主題的信息。索引

    而數據倉庫的面向主題性則徹底不一樣,它更傾向於按照主題來肯定數據存放的方式,也就是咱們俗稱的主題域。例如上例中的保險公司,數據倉庫可能會按照顧客、保險單、保險費、索賠等對全部類型的保險進行存儲。數據分析

    2. 數據倉庫的第二個顯著特色是集成,在數據倉庫的全部特性之中,集成是最重要的。不少時候,數據倉庫的數據是從多個不一樣的數據源傳送過來的,雖然抽取過來的數據從內容上講是有聯繫的,但不一樣應用的設計人員在編碼、命名習慣、物理屬性、屬性度量單位等方面都會存在差別,這就使得將數據導入到數據倉庫以前必須對他們進行一致性處理。效率

    3. 數據倉庫的第三個重要特性是非易失的。操做性系統的數據是會常常進行改變的,例如火車票的預約,每個時刻餘票的數量都是不必定的,因此某一個時間片斷上餘票信息是很容易失去的,但在數據倉庫環境中,數據通常是不進行數據更新的,數據倉庫中保存的是數據的歷史情況。基礎

    4. 數據倉庫的最後一個特性是隨時間變化。時變性的意思是數據倉庫中的每一個數據單元只是在某一時間是準確的。一些狀況下,記錄中會加入時間戳,而在另一些狀況下記錄則包含一個事物的時間。總之,任何狀況下,數據倉庫的記錄都會包含某種形式的時間標誌用以說明數據在那一時刻是準確的,而且數據倉庫的關鍵字結構老是包含時間元素。搜索

    下面來討論一下數據倉庫設計中須要特別注意的兩個方面。時間戳

    1. 粒度。粒度問題是設計數據倉庫的最重要的方面。粒度指的是數據倉庫中數據單元的細節程度或綜合程度的級別,它會深入的影響存放在數據倉庫中的數據量的大小以及數據倉庫所能回答的查詢類型。

    下面舉一個粒度設計的小例子:原始數據爲一個顧客一個月中的全部通話細節,若是將全部的數據都存放到數據倉庫中顯然是不合適的,這樣會致使數據倉庫數據量的急劇增長,對於數據分析的效率將形成巨大的影響;但若是將這個月的通話信息進行一個整合,按照月份將具體的通話時間、費用等進行存放,數據量大大的下降,但與此同時會丟掉大量的詳細信息,未來的DSS分析員只能對月份及以上的時間跨度進行數據分析,這樣直接致使可供分析的選擇大大下降。

    因此,根據具體狀況,選擇一個合適的粒度是十分重要的。在實際應用環境當中,更多使用的實際上是雙重粒度。具體的使用能夠具體從網上搜索一下,在這裏不進行詳細的講解了。

    2. 數據倉庫中數據的第二個主要設計問題是分區。數據分區是指把數據分散到可獨立處理的分離的物理單元當中去。在數據倉庫中,圍繞分區問題的焦點不是該不應分區而是該如何分區。

    數據分區使得數據能夠在小的分開的離散單元中進行管理。這使得數據倉庫中的數據裝載變得簡單,創建索引額更加順暢,數據歸檔也變得容易。一般的狀況下,分區是在應用層而非系統層進行的。

 

總結一下:數據倉庫設計決策的兩個重要方面:數據的粒度與分區。對於大部分機構來講,採用雙重粒度是很是有意義的。

相關文章
相關標籤/搜索