focus on :數據庫
Know What's ETL?服務器
Know ETL 在 BI 開發中注意的細節spa
ETL 是數據抽取(Extract)、清洗(Cleaning)、轉換(Transform)、裝載(Load)的過程。設計
ETL 是構建 DW 的重要一環,用戶從數據源抽取出數據,經 數據清洗,按照預約義好的 DW模型,將數據加載到 DW 中去。orm
ETL 是將業務系統的數據通過抽取、清洗轉換以後加載到 DW 的過程,目的是將企業中的分散零亂、標準不統一的數據到一塊兒,爲企業的決策提供分析依據。圖片
ETL 是 BI 項目中一個重要環節。開發
ETL的設計分三個部分:it
數據抽取form
數據的清洗轉換class
數據的加載
下面看流程圖:
首先要搞清楚數據是從幾個業務系統中來,各個業務系統的數據庫服務器運行的是何種DBMS,是否存在手工數據, 非結構化數據等。
數據倉庫分爲ODS,DW連部分。一般的作法是從業務系統到ODS作清洗,將髒數據和不完整的數據過濾掉,在ODS到過程當中轉換,進行一些業務規則的計算和聚合。
1. 數據清洗
主要是過濾那些不符合要求的數據。
不完整的數據
錯誤的數據
重複的數據
2. 數據轉換
數據轉換的任務主要進行不一致的數據轉換、數據粒度的轉換
通常在數據清洗完了以後直接寫入DW