Kettle解決方案: 第五章 ETL相關知識

早期, ETL知識做爲BI系統的一部分來介紹. 後來在The Data Warehouse ETL Tooket一書中, 系統性的整理了ETL的相關內容, 造成了一篇"ETL裏的34個子系統"的介紹, 總結了ETL項目面臨的不一樣任務. 
安裝類型分類其實主要分爲:
1抽取  對應原文子系統1~3
2清洗更正 對應原文4~8
3發佈  34個子系統有13個屬於這個範疇
4管理  對應原文22~34

5.1 抽取

從不一樣數據源抽取數據.
訪問數據源的政策性風險, 安全性和性能都是挑戰.
對應子系統1,2,3 (數據剖析, 增量數據捕獲, 抽取系統)

5.2 清洗更正

數據加載到目標數據倉庫以前所作的必要的清洗和更正工做. 例如處理用戶的性別, 用新的數據類型來存儲管理.
對應子系統4 (數據清洗和質量處理系統)
子系統5(錯誤事件處理)
子系統6 (審計緯度)
子系統7 (排除重複記錄系統)
子系統8 (數據一致性)

5.3 數據發佈

保證正確的更新/新增數據到目標數據庫.
對應
子系統9 (緩慢變動緯度處理)
子系統10 (代理鍵生成系統) :增長序列之類的.
子系統11 (層次維度構建) 好比時間緯度, 地理緯度等
子系統12 (特殊緯度生成系統) : 雜項緯度, 小緯度,自定義緯度等
子系統13 (事實表加載) 單獨出來是爲了簽到三種不一樣類型的事實表:
事務粒度事實表, 週期快照事實表, 累積快照事實表
子系統 14 代理鍵管道
子系統 15 (多值維度橋接表生成系統)
子系統 16 遲到數據處理
子系統 17 (維度管理系統)
子系統 18 事實表管理系統
...等


5.4 管理ETL環境

主要是做業調度, 備份系統, 數據恢復,重啓 版本控制.
生成/測試環境遷移, 並行/管道系統等.
相關文章
相關標籤/搜索