超詳細的六款主流ETL工具介紹及功能對比



概述

ETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程),對於企業或行業應用來講,咱們常常會遇到各類數據的處理,轉換,遷移,因此瞭解並掌握一種etl工具的使用,必不可少。最近用kettle作數據處理比較多,因此也就介紹下這方面內容,這裏先對比下幾款主流的ETL工具。java


一、DataPipeline

Data Pipeline是一家爲企業用戶提供數據基礎架構服務的科技公司,DataPipeline數據質量平臺整合了數據質量分析、質量校驗、質量監控等多方面特性, 以保證數據質量的完整性、一致性、準確性及惟一性,完全解決數據孤島和數據定義進化的問題。git



二、Kettle

Kettle是一款國外開源的ETL工具,純java編寫,能夠在Windows、Linux、Unix上運行,數據抽取高效穩定。Kettle 中文名稱叫水壺,該項目的主程序員MATT 但願把各類數據放到一個壺裏,而後以一種指定的格式流出。程序員

Kettle家族目前包括4個產品:Spoon、Pan、CHEF、Kitchen。github

SPOON 容許你經過圖形界面來設計ETL轉換過程(Transformation)。web

PAN 容許你批量運行由Spoon設計的ETL轉換 (例如使用一個時間調度器)。Pan是一個後臺執行的程序,沒有圖形界面。數據庫

CHEF 容許你建立任務(Job)。任務經過容許每一個轉換,任務,腳本等等,更有利於自動化更新數據倉庫的複雜工做。任務經過容許每一個轉換,任務,腳本等等。任務將會被檢查,看看是否正確地運行了。微信

KITCHEN 容許你批量使用由Chef設計的任務 (例如使用一個時間調度器)。KITCHEN也是一個後臺運行的程序。架構



三、Talend

Talend,是一家專業的開源集成軟件公司,爲企業提供開源的中間件解決方案,從而讓企業可以在他們的應用,系統以及數據庫中贏取更大的價值。在傳統軟件公司提供封閉、私有的解決方案的領域Talend系列軟件以開源的形式進行開發。Talend,可運行於 Hadoop 集羣之間,直接生成 MapReduce 代碼供 Hadoop 運行,從而能夠下降部署難度和成本,加快分析速度。並且 Talend 還支持可進行併發事務處理的Hadoop2.0。併發



四、Informatica

Informatica是全球領先的數據管理軟件提供商。在以下Gartner魔力象限位於領導者地位:數據集成工具魔力象限、數據質量工具魔力象限 、元數據管理解決方案魔力象限 、主數據管理解決方案魔力象限 、企業級集成平臺即服務(EiPaaS)魔力象限。app

Informatica Enterprise Data Integration包括Informatica PowerCenter和Informatica PowerExchange 兩大產品,憑藉其高性能、可充分擴展的平臺,能夠解決幾乎全部數據集成項目和企業集成方案。

· Informatica PowerCenter用於訪問和集成幾乎任何業務系統、任何格式的數據,它能夠按任意速度在企業內交付數據,具備高性能、高可擴展性、高可用性的特色。Informatica PowerCenter包括4個不一樣版本,即:標準版,實時版,高級版,雲計算版。同時,它還提供了多個可選的組件,以擴展Informatica PowerCenter的核心數據集成功能,這些組件包括:數據清洗和匹配、數據屏蔽、數據驗證、Teradata雙負載、企業網格、元數據交換、下推優化(Pushdown Optimization)、團隊開發和非結構化數據等。

· Informatica PowerExchange 是一系列的數據訪問產品,它確保 IT 機構可以根據須要隨時隨地訪問並在整個企業內傳遞關鍵數據。憑該能力,IT機構能夠優化有限的資源和數據的業務價值。Informatica PowerExchange支持多種不一樣的數據源和各種應用,包括企業應用程序、數據庫和數據倉庫、大型機、中型系統、消息傳遞系統和技術標準。



五、Datax

DataX 是阿里巴巴集團內被普遍使用的離線數據同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各類異構數據源之間高效的數據同步功能。

開源地址:https://github.com/alibaba/DataX



六、Oracle Goldengate

GoldenGate軟件是一種基於日誌的結構化數據複製軟件。GoldenGate 可以實現大量交易數據的實時捕捉、變換和投遞,實現源數據庫與目標數據庫的數據同步,保持亞秒級的數據延遲。

源端經過抽取進程提取redo log或archive log日誌內容,經過pump進程(TCP/IP協議)發送到目標端,最後目標端的rep進程接收日誌、解析並應用到目標端,進而完成數據同步。



七、ETL工具對比

整理成表格以下:





物流IT圈 




泛物流行業IT知識分享傳播、從業人士互幫互助,覆蓋快遞快運/互聯網物流平臺/城配/即時配送/3PL/倉配/貨代/冷鏈/物流軟件公司/物流裝備/物流自動化設備/物流機器人等細分行業。長按二維碼即刻加入咱們,若是你是以上行業公司中的IT從業人士加運營小哥微信後可入羣交流。

              公衆號              

運營小哥



本文分享自微信公衆號 - 物流IT圈(exiter18)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索