DataX簡介

DataX 是阿里巴巴集團內被普遍使用的離線數據同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各類異構數據源之間高效的數據同步功能。java

 

設計理念:python

爲了解決異構數據源同步問題,DataX將複雜的網狀的同步鏈路變成了星型數據鏈路,DataX做爲中間傳輸載體負責鏈接各類數據源。當須要接入一個新的數源的時候,只須要將此數據源對接到DataX,便能跟已有的數據源作到無縫數據同步。git

 

 

當前現狀:
DataX在阿里巴巴集團內被普遍使用,承擔了全部大數據的離線同步業務,並已持續穩定運行了6年之久。目前天天完成同步8w多道做業,每日傳輸數據量超過300TB.
支持的數據源:DataX目前已經有了比較全面的插件體系,主流的RDBMS數據庫、NOSQL、大數據計算系統都已經接入,目前支持數據如右圖github

 


DataX3.0框架設計
數據庫

 


DataX自己做爲離線數據同步框架,採用Framework + plugin架構構建。將數據源讀取和寫入抽象成爲Reader/Writer插件,歸入到整個同步框架中。
Reader:Reader爲數據採集模塊,負責採集數據源的數據,將數據發送給Framework。
Writer: Writer爲數據寫入模塊,負責不斷向Framework取數據,並將數據寫入到目的端。
Framework:Framework用於鏈接reader和writer,做爲二者的數據傳輸通道,並處理緩衝,流控,併發,數據轉換等核心技術問題。架構

 DataX的使用併發


環境準備:
Github地址:https://github.com/alibaba/DataX
版本:DataX3.0
java(1.6及其以上)
python(2.6及其以上),必定要爲python2框架

相關文章
相關標籤/搜索