DataX介紹

一. DataX3.0概覽html

DataX 是一個異構數據源離線同步工具,致力於實現包括關係型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各類異構數據源之間穩定高效的數據同步功能。git

設計理念github

爲了解決異構數據源同步問題,DataX將複雜的網狀的同步鏈路變成了星型數據鏈路,DataX做爲中間傳輸載體負責鏈接各類數據源。當須要接入一個新的數據源的時候,只須要將此數據源對接到DataX,便能跟已有的數據源作到無縫數據同步。數據庫

當前使用現狀多線程

DataX在阿里巴巴集團內被普遍使用,承擔了全部大數據的離線同步業務,並已持續穩定運行了6年之久。目前天天完成同步8w多道做業,每日傳輸數據量超過300TB。架構

此前已經開源DataX1.0版本,這次介紹爲阿里巴巴開源全新版本DataX3.0,有了更多更強大的功能和更好的使用體驗。Github主頁地址:https://github.com/alibaba/DataX併發

2、DataX3.0框架設計框架

DataX自己做爲離線數據同步框架,採用Framework + plugin架構構建。將數據源讀取和寫入抽象成爲Reader/Writer插件,歸入到整個同步框架中。工具

Reader:Reader爲數據採集模塊,負責採集數據源的數據,將數據發送給Framework。大數據

Writer: Writer爲數據寫入模塊,負責不斷向Framework取數據,並將數據寫入到目的端。

Framework:Framework用於鏈接reader和writer,做爲二者的數據傳輸通道,並處理緩衝,流控,併發,數據轉換等核心技術問題。

三. DataX3.0插件體系

通過幾年積累,DataX目前已經有了比較全面的插件體系,主流的RDBMS數據庫、NOSQL、大數據計算系統都已經接入。DataX目前支持數據以下:

DataX Framework提供了簡單的接口與插件交互,提供簡單的插件接入機制,只須要任意加上一種插件,就能無縫對接其餘數據源。詳情請看:DataX數據源指南

4、DataX3.0核心架構

DataX 3.0 開源版本支持單機多線程模式完成同步做業運行,本小節按一個DataX做業生命週期的時序圖,從總體架構設計很是簡要說明DataX各個模塊相互關係。

核心模塊介紹:

DataX完成單個數據同步的做業,咱們稱之爲Job,DataX接受到一個Job以後,將啓動一個進程來完成整個做業同步過程。DataX Job模塊是單個做業的中樞管理節點,承擔了數據清理、子任務切分(將單一做業計算轉化爲多個子Task)、TaskGroup管理等功能。

DataXJob啓動後,會根據不一樣的源端切分策略,將Job切分紅多個小的Task(子任務),以便於併發執行。Task即是DataX做業的最小單元,每個Task都會負責一部分數據的同步工做。

切分多個Task以後,DataX Job會調用Scheduler模塊,根據配置的併發數據量,將拆分紅的Task從新組合,組裝成TaskGroup(任務組)。每個TaskGroup負責以必定的併發運行完畢分配好的全部Task,默認單個任務組的併發數量爲5。

每個Task都由TaskGroup負責啓動,Task啓動後,會固定啓動Reader—>Channel—>Writer的線程來完成任務

相關文章
相關標籤/搜索