金融行業數據倉庫的建設思路

金融機構建設數據倉庫並不是一朝一夕之事,須要投入巨大的人力物力,是整個公司戰略級的項目,本文只是結合本身的行業知識,整理下大概的建設思路。html

 

什麼是數據倉庫?來自百度百科的解釋:數據倉庫,英文名稱爲Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業全部級別的決策制定過程,提供全部類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而建立。 爲須要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。數據庫

 

從上面概念中,大概能夠知道數據倉庫是用於上層分析性報告和決策支持的基石,也就是如今流行的數據中臺中重要的組成部分。因此搭建好數據倉庫,是整個數據中臺建設的重中之重。大數據

 

數據倉庫通常分爲4個層,依次是數據緩衝層-->數據整合層-->數據基礎層-->數據服務層,加上底層應用系統的數據源層,和上層分析應用的數據集市層,整個分佈圖大概以下:spa

 

 

下面主要說明下,每一個層的做用,以及層與層以前的轉換邊界問題。htm

數據源:主要是企業早期創建的各個獨立的業務系統或者數據中心,簡單的說就是各個數據庫DB實例。blog

數據緩衝層:也稱貼源層或ODS層,存儲的表數據基本和數據源一致,只是擴展了數據導入時間和導入日期,由於它的數據來源須要經過ETL從數據源層抽取轉換過來。get

數據整合層:也稱模型層,這層是整個數據倉庫最重要的,它的做用是對公司的全域數據進行系統建模,相關人員必須對整個行業的業務十分熟悉,好比基金行業,須要對證券主信息標準化,證券市場信息標準化,數據字典標準化,數值(單位)標準化,記錄(數據來源)標準化等等。數據緩衝層到數據整合層,會涉及到數據的簡單清洗和轉換,但不會涉及到計算過程。關於行業標準,這裏引用下《中國資本市場標準網》http://www.csisc.cn/zbscbzw/hysjmx/index_hysjmx.shtm基礎

 

  

數據基礎層:也稱基礎指標層,從數據整合層到數據基礎層,會涉及指標因子的計算,好比持倉市值=持倉數量*收盤價,不過基本都是簡單的計算。百度

數據應用層:也稱指標準備層,從數據基礎層到數據應用層,會涉及指標的深度計算,好比由數據基礎層計算的收益率,延伸計算爲7日收益率,成立以來收益率等等。數據基礎層造成的指標,也會直接複用到數據應用層。擴展

數據集市:這層主要是業務場景的應用,根據具體的業務場景,由數據應用層的指標進行拼湊,造成具體的解決方案,供上層應用分析,決策。

 

本文只是對數據倉庫作個簡單介紹,後續有時間再針對每一個點涉及的技術(好比大數據平臺的應用)做深刻剖析。

相關文章
相關標籤/搜索