數據倉庫是什麼

數據庫是最常聽到的名詞之一了,可是當提到數據倉庫的時候,就會疑問,數據倉庫是數據庫嗎? 若是不是,數據倉庫是什麼,用來幹什麼的呢? 平時遇到這個問題通常還真是很差簡單明瞭的回答,由於也的確不是一兩句話說的清的。那麼數據倉庫究竟是什麼呢,跟數據庫有什麼區別呢?數據庫

 

數據倉庫是面向主題的 集成的 相對穩定的 反映歷史變化的數據集合,目的在於支持決策ide

  1. 面向主題spa

    • 面向主題跟面向應用相對應。面向應用是指實現某種功能,數據集合也是其單一功能的數據集。而面向主題是指爲了實現某個主題而產生的一個或多個的面向應用的數據集合的整合。orm

    • 舉個例子,支付是一個面向應用的主體,而交易是一個面向主題的主體。由於交易是從下單,到支付等的一系列的過程的串聯,支付只是其中的一環。blog

  2. 集成生命週期

    • 數據倉庫的一個重要的功能是把不一樣的數據源的數據彙總到一塊兒。數據分析

    • 集成是指把不一樣類型的數據源的數據進行整合,按照統一的形式進行集成。好比性別在一個數據源用男/女 另外一個用1/2,那麼在數據倉庫中咱們須要對其進行統一。it

  3. 相對穩定class

    • 數據通常有必定的生命週期,歷史的數據通常不會再改變,咱們能夠採用增量的策略進行數據的傳輸和計算。好比看訂單的支付成功的相關信息,那麼一旦訂單支付成功以後,這個訂單的支付成功相關的信息就不會在變動,因此此類的數據能夠按天增量計算。引用

  4. 反映歷史變化

    • 因爲在數據倉庫中能夠存儲歷史的信息,那麼就能夠根據這些歷史信息進行數據的分析來反映歷史的變化。而操做型數據庫通常只會某些時間段的數據。

從數據倉庫的概念中也能夠看出來數據倉庫作的事情確實跟數據庫不同。概括起來以下

  1. 數據粒度不一樣。數據庫存儲的是操做型數據,是細節性的數據,事當前的數據,反應的是最後修改的結果。數據倉庫是分析型的集成或者彙總的數據,面向主題,而且保存數據的全部歷史狀態。

  2. 數據生命週期不一樣。數據庫存的數據的生命週期比較短,不會保存好久的數據。數據倉庫則須要歷史數據來反映趨勢的變化和數據分析。

  3. 建模方法不一樣。數據庫採用範式建模,不能有冗餘。數據倉庫的建模方法有DW範式建模(跟數據庫的範式建模也不一樣)和DM維度建模等,能夠存在冗餘。

  4. 時間敏感度不一樣。數據庫的數據要求及時性很是高。數據倉庫能夠容忍數據的必定的延遲。

  5. 目標不一樣。數據庫主要面向業務處理的,而數據倉庫則面向分析用戶。

網上引用比較多的對比表格

相關文章
相關標籤/搜索