最近在數據庫庫領域新設置的職位elt 工程師,你們想多瞭解下麼?
ETL(數據倉庫技術)
ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據歷來源端通過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。ETL一詞較經常使用在數據倉庫,但其對象並不限於數據倉庫。數據庫
ETL是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,通過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。eclipse
ETL工具的典型表明有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle、久其ETL……
開源的工具備eclipse的etl插件:cloveretl
數據集成:快速實現ETL
ETL的質量問題具體表現爲正確性、完整性、一致性、完備性、有效性、時效性和可獲取性等幾個特性。而影響質量問題的緣由有不少,由系統集成和歷史數據形成的緣由主要包括:業務系統不一樣時期系統之間數據模型不一致;業務系統不一樣時期業務過程有變化;舊系統模塊在運營、人事、財務、辦公系統等相關信息的不一致;遺留系統和新業務、管理系統數據集成不完備帶來的不一致性。
實現ETL,首先要實現ETL轉換的過程。體現爲如下幾個方面:
一、空值處理:可捕獲字段空值,進行加載或替換爲其餘含義數據,並可根據字段空值實現分流加載到不一樣目標庫。
二、規範化數據格式:可實現字段格式約束定義,對於數據源中時間、數值、字符等數據,可自定義加載格式。
三、拆分數據:依據業務需求對字段可進行分解。例,主叫號 861082585313-8148,可進行區域碼和電話號碼分解。
四、驗證數據正確性:可利用Lookup及拆分功能進行數據驗證。例如,主叫號861082585313-8148,進行區域碼和電話號碼分解後,可利用Lookup返回主叫網關或交換機記載的主叫地區,進行數據驗證。
五、數據替換:對於因業務因素,可實現無效數據、缺失數據的替換。
六、Lookup:查獲丟失數據 Lookup實現子查詢,並返回用其餘手段獲取的缺失字段,保證字段完整性。
七、創建ETL過程的主外鍵約束:對無依賴性的非法數據,可替換或導出到錯誤數據文件中,保證主鍵惟一記錄的加載。ide