DataWorks搬站方案:Azkaban做業遷移至DataWorks

簡介:DataWorks遷移助手提供任務搬站功能,支持將開源調度引擎Oozie、Azkaban、Airflow的任務快速遷移至DataWorks。本文主要介紹如何將開源Azkaban工做流調度引擎中的做業遷移至DataWorks上。

DataWorks遷移助手提供任務搬站功能,支持將開源調度引擎Oozie、Azkaban、Airflow的任務快速遷移至DataWorks。本文主要介紹如何將開源Azkaban工做流調度引擎中的做業遷移至DataWorks上。html

支持遷移的Azkaban版本

支持所有版本的Azkaban遷移。shell

總體遷移流程

遷移助手支持開源工做流調度引擎到DataWorks體系的大數據開發任務遷移的基本流程以下圖所示。工具

azk1.png

針對不一樣的開源調度引擎,DataWorks遷移助手會出一個相關的任務導出方案。oop

總體遷移流程爲:經過遷移助手調度引擎做業導出能力,將開源調度引擎中的做業導出;再將做業導出包上傳至遷移助手中,經過任務類型映射,將映射後的做業導入至DataWorks中。做業導入時可設置將任務轉換爲MaxCompute類型做業、EMR類型做業、CDH類型做業等。大數據

Azkaban做業導出

Azkaban工具自己具有導出工做流的能力,有本身的Web控制檯,以下圖所示:阿里雲

azk2.png

Azkaban界面支持直接Download某個Flow。Flow的導出流程:spa

azk3.png

操做步驟:命令行

1.進入Project頁面htm

2.點擊Flows,會列出Project下面全部的工做流(Flow)ip

3.點擊Download便可下載Project的導出文件

Azkaban導出包格式原生Azkaban便可,導出包Zip文件內部爲Azakaban的某個Project的全部任務(Job)和關係信息。

Azkaban做業導入

拿到了開源調度引擎的導出任務包後,用戶能夠拿這個zip包到遷移助手的遷移助手->任務上雲->調度引擎做業導入頁面上傳導入包進行包分析。

azk4.png

導入包分析成功後點擊確認,進入導入任務設置頁面,頁面中會展現分析出來的調度任務信息。

開源調度導入設置

用戶能夠點擊高級設置,設置Azkaban任務與DataWorks任務的轉換關係。不一樣的開源調度引擎,在高級設置裏面的設置界面基本一致,以下圖:

azk5.png

高級設置項介紹:

  • sparkt-submit轉換爲:導入過程會去分析用戶的任務是否是sparkt-submit任務,若是是的話,會將spark-submit任務轉換爲對應的DataWorks任務類型,好比說:ODPS\_SPARK/EMR\_SPARK/CDH\_SPARK等
  • 命令行 SQL任務轉換爲:開源引擎不少任務類型是命令行運行SQL,好比說hive -e, beeline -e, impala-shell等等,遷移助手會根據用戶選擇的目標類型作對應的轉換。好比能夠轉換成ODPS\_SQL, EMR\_HIVE, EMR\_IMPALA, EMR\_PRESTO, CDH\_HIVE, CDH\_PRESTO, CDH\_IMPALA等等
  • 目標計算引擎類型:這個主要是影響的是Sqoop同步的目的端的數據寫入配置。咱們會默認將sqoop命令轉換爲數據集成任務。計算引擎類型決定了數據集成任務的目的端數據源使用哪一個計算引擎的project。
  • Shell類型轉換爲:SHELL類型的節點在Dataworks根據不一樣計算引擎會有不少種,好比EMR\_SHELL,CDH\_SHELL,DataWorks本身的Shell節點等等。
  • 未知任務轉換爲:對目前遷移助手沒法處理的任務,咱們默認用一個任務類型去對應,用戶能夠選擇SHELL或者虛節點VIRTUAL
  • SQL節點轉換爲:DataWorks上的SQL節點類型也由於綁定的計算引擎的不一樣也有不少種。好比 EMR\_HIVE,EMR\_IMPALA、EMR\_PRESTO,CDH\_HIVE,CDH\_IMPALA,CDH\_PRESTO,ODPS\_SQL,EMR\_SPARK\_SQL,CDH\_SPARK\_SQL等,用戶能夠選擇轉換爲哪一種任務類型。
注意:這些導入映射的轉換值是動態變化的,和當前項目空間綁定的計算引擎有關,轉換關係以下。

導入至DataWorks + MaxCompute

設置項 可選值
sparkt-submit轉換爲 ODPS_SPARK
<span>命令行 SQL任務轉換爲</span> ODPS_SQL、ODPS_SPARK_SQL
<span>目標計算引擎類型</span> ODPS
<span>Shell類型轉換爲</span> DIDE_SHELL
<span>未知任務轉換爲</span> DIDE_SHELL、VIRTUAL
<span>SQL節點轉換爲</span> ODPS_SQL、ODPS_SPARK_SQL
### 導入至DataWorks + EMR
設置項 可選值
sparkt-submit轉換爲 EMR_SPARK
命令行 SQL任務轉換爲 EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL
目標計算引擎類型 EMR
Shell類型轉換爲 DIDE_SHELL, EMR_SHELL
未知任務轉換爲 DIDE_SHELL、VIRTUAL
SQL節點轉換爲 EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL
### 導入至DataWorks + CDH
設置項 可選值
sparkt-submit轉換爲 CDH_SPARK
命令行 SQL任務轉換爲 CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL
目標計算引擎類型 CDH
Shell類型轉換爲 DIDE_SHELL
未知任務轉換爲 DIDE_SHELL、VIRTUAL
SQL節點轉換爲 CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL
## 執行導入 設置完映射關係後,點擊開始導入便可。導入完成後,請進入數據開發中查看導入結果。 ## 數據遷移 大數據集羣上的數據遷移,可參考: DataWorks數據集成MMA。 任務上雲詳細文檔: https://help.aliyun.com/document\_detail/181296.html > 本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。
相關文章
相關標籤/搜索