上週由於在處理不少數據源集成的事情一直沒有更新系列文章,在這周後開始規律更新。在維度建模中咱們已經瞭解數據倉庫中的維度建模方法以及基本要素,在這篇文章中咱們將學習瞭解數據倉庫的ETL過程以及實用的ETL工具。數據庫
1、什麼是ETL?服務器
構建數據倉庫的核心是建模,在數據倉庫的構建中,ETL貫穿於項目始終,它是整個數據倉庫的生命線。從數據源中抽取數據,而後對這些數據進行轉化,最終加載到目標數據庫或者數據倉庫中去,這也就是咱們一般所說的 ETL 過程(Extract,Transform,Load)。架構
一般數據抽取工做分抽取、清洗、轉換、裝載幾個步驟:函數
抽取主要是針對各個業務系統及不一樣服務器的分散數據,充分理解數據定義後,規劃須要的數據源及數據定義,制定可操做的數據源,制定增量抽取和緩慢漸變的規則。工具
清洗主要是針對系統的各個環節可能出現的數據二義性、重複、不完整、違反業務規則等數據質量問題,容許經過數據抽取設定的數據質量規則,將有問題的記錄先剔除出來,根據實際狀況調整相應的清洗操做。學習
轉換主要是針對數據倉庫創建的模型,經過一系列的轉換來實現將數據從業務模型到分析模型,經過ETL工具可視化拖拽操做能夠直接使用標準的內置代碼片斷功能、自定義腳本、函數、存儲過程以及其餘的擴展方式,實現了各類複雜的轉換,而且支持自動分析日誌,清楚的監控數據轉換的狀態並優化分析模型。優化
裝載主要是將通過轉換的數據裝載到數據倉庫裏面,能夠經過直連數據庫的方式來進行數據裝載,能夠充分體現高效性。在應用的時候能夠隨時調整數據抽取工做的運行方式,能夠靈活的集成到其餘管理系統中。spa
2、 數據倉庫ETL工具備哪些?日誌
ETL過程咱們簡單介紹了一下,接下來咱們來了解市面上數據倉庫解決方案。如下五種ETL工具是我基本接觸過的產品,我的根據產品對應官網以及提供的資料總結,對比的五種ETL工具(SEDWA、kettle、OracleGoldengate、informatica、talend)的比較,目前對於這些工具也是初步瞭解,後續根據實際的體驗學習後再來進一步總結豐富對比維度信息。注意工具排名不分前後,我的認爲技術沒有絕對的好壞,關鍵是看你們使用的場景。實際工做中選購知足公司須要的產品便可。 orm
好了,有關於ETL過程和ETL工具就介紹到這裏。下一篇咱們開始來了解數據倉庫的架構(數據倉庫建設的整體規劃)。本文中若有錯誤或誤導的地方歡迎你們指出糾正。 但願這篇文章可以給你們帶來幫助,最後感謝你們的閱讀。歡迎你們一塊兒加入高效數據處理ETL交流羣,一塊兒討論數據分析ETL過程的問題,一塊兒學習一塊兒成長。
掃碼加羣: