BI Dev--ETL Introduce

Chap 1 認識 ETL

focus on :數據庫

  1. Know What's ETL?服務器

  2. Know ETL 在 BI 開發中注意的細節spa

1-1 ETL 簡介

  1. ETL 是數據抽取(Extract)、清洗(Cleaning)、轉換(Transform)、裝載(Load)的過程。設計

  2. ETL 是構建 DW 的重要一環,用戶從數據源抽取出數據,經 數據清洗,按照預約義好的 DW模型,將數據加載到 DW 中去。orm

  3. ETL 是將業務系統的數據通過抽取、清洗轉換以後加載到 DW 的過程,目的是將企業中的分散零亂、標準不統一的數據到一塊兒,爲企業的決策提供分析依據。圖片

  4. ETL 是 BI 項目中一個重要環節。開發

ETL的設計分三個部分:it

  1. 數據抽取form

  2. 數據的清洗轉換class

  3. 數據的加載

下面看流程圖:
圖片描述

1、數據抽取

首先要搞清楚數據是從幾個業務系統中來,各個業務系統的數據庫服務器運行的是何種DBMS,是否存在手工數據, 非結構化數據等。

2、數據清洗與轉換

數據倉庫分爲ODS,DW連部分。一般的作法是從業務系統到ODS作清洗,將髒數據和不完整的數據過濾掉,在ODS到過程當中轉換,進行一些業務規則的計算和聚合。

1. 數據清洗

主要是過濾那些不符合要求的數據。

  1. 不完整的數據

  2. 錯誤的數據

  3. 重複的數據

2. 數據轉換

數據轉換的任務主要進行不一致的數據轉換、數據粒度的轉換

3、數據的加載

通常在數據清洗完了以後直接寫入DW

相關文章
相關標籤/搜索