簡介:DataWorks遷移助手提供任務搬站功能,支持將開源調度引擎Oozie、Azkaban、Airflow的任務快速遷移至DataWorks。本文主要介紹如何將開源Azkaban工做流調度引擎中的做業遷移至DataWorks上。
DataWorks遷移助手提供任務搬站功能,支持將開源調度引擎Oozie、Azkaban、Airflow的任務快速遷移至DataWorks。本文主要介紹如何將開源Azkaban工做流調度引擎中的做業遷移至DataWorks上。html
支持所有版本的Azkaban遷移。shell
遷移助手支持開源工做流調度引擎到DataWorks體系的大數據開發任務遷移的基本流程以下圖所示。工具
針對不一樣的開源調度引擎,DataWorks遷移助手會出一個相關的任務導出方案。oop
總體遷移流程爲:經過遷移助手調度引擎做業導出能力,將開源調度引擎中的做業導出;再將做業導出包上傳至遷移助手中,經過任務類型映射,將映射後的做業導入至DataWorks中。做業導入時可設置將任務轉換爲MaxCompute類型做業、EMR類型做業、CDH類型做業等。大數據
Azkaban工具自己具有導出工做流的能力,有本身的Web控制檯,以下圖所示:阿里雲
Azkaban界面支持直接Download某個Flow。Flow的導出流程:spa
操做步驟:命令行
1.進入Project頁面htm
2.點擊Flows,會列出Project下面全部的工做流(Flow)ip
3.點擊Download便可下載Project的導出文件
Azkaban導出包格式原生Azkaban便可,導出包Zip文件內部爲Azakaban的某個Project的全部任務(Job)和關係信息。
拿到了開源調度引擎的導出任務包後,用戶能夠拿這個zip包到遷移助手的遷移助手->任務上雲->調度引擎做業導入頁面上傳導入包進行包分析。
導入包分析成功後點擊確認,進入導入任務設置頁面,頁面中會展現分析出來的調度任務信息。
用戶能夠點擊高級設置,設置Azkaban任務與DataWorks任務的轉換關係。不一樣的開源調度引擎,在高級設置裏面的設置界面基本一致,以下圖:
高級設置項介紹:
注意:這些導入映射的轉換值是動態變化的,和當前項目空間綁定的計算引擎有關,轉換關係以下。
設置項 | 可選值 |
sparkt-submit轉換爲 | ODPS_SPARK |
<span>命令行 SQL任務轉換爲</span> | ODPS_SQL、ODPS_SPARK_SQL |
<span>目標計算引擎類型</span> | ODPS |
<span>Shell類型轉換爲</span> | DIDE_SHELL |
<span>未知任務轉換爲</span> | DIDE_SHELL、VIRTUAL |
<span>SQL節點轉換爲</span> | ODPS_SQL、ODPS_SPARK_SQL |
設置項 | 可選值 |
sparkt-submit轉換爲 | EMR_SPARK |
命令行 SQL任務轉換爲 | EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL |
目標計算引擎類型 | EMR |
Shell類型轉換爲 | DIDE_SHELL, EMR_SHELL |
未知任務轉換爲 | DIDE_SHELL、VIRTUAL |
SQL節點轉換爲 | EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL |
設置項 | 可選值 |
sparkt-submit轉換爲 | CDH_SPARK |
命令行 SQL任務轉換爲 | CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL |
目標計算引擎類型 | CDH |
Shell類型轉換爲 | DIDE_SHELL |
未知任務轉換爲 | DIDE_SHELL、VIRTUAL |
SQL節點轉換爲 | CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL |