Apache DolphinScheduler集成datax

DataX 是一個異構數據源離線同步工具,致力於實現包括關係型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各類異構數據源之間穩定高效的數據同步功能。html

具體介紹這裏再也不贅述,官網和其餘博客都不少:https://www.jianshu.com/p/f5f0dc99d5abmysql

1.下載datax安裝包及部署步驟git

官網:https://github.com/alibaba/DataX/blob/master/userGuid.mdgithub

這裏結合centos7搭建dolphinscheduler集羣說說dolphinscheduler集成datax,這裏也很簡單,datax安裝目錄和dolphinscheduler配置目錄保持一致便可sql

 

 

 這裏解壓到/opt/soft/目錄下數據庫

tar -zxvf datax.tar.gz -C /opt/soft/

2.在DolphinScheduler後臺配置datax任務,這裏以mysql數據源爲例,mysql->mysql,這裏演示數據由test1->test2->test3中,須要配置兩個任務,第一個任務test1->test2,第二個任務test2->test3,第一個任務完成後執行第二個任務,數據流配置以下:windows

首先在數據源中心配置mysql數據源centos

 

 

 而後在項目管理裏面建立數據流任務,在畫布上拉去datax類型配置第一個任務,選擇剛纔配置的mysql數據源工具

 

 配置第二個任務post

 

 3.數據流上線,並配置定時調度策略

 

 任務調度後執行成功:

 

 須要注意配置租戶在worker機器上添加對應的user,window打包dolphinscheduler時腳本在Linux上執行一次能夠看:windows打包腳本出現 /bin/sh^M: 壞的解釋器: 沒有那個文件或目錄 錯誤

相關文章
相關標籤/搜索