Databricks 第10篇:Job

你們知道,用戶能夠在Notebook UI中以交互方式運行Notebook中的SQL、Python等代碼,交互方式便於數據的調查和分析。用戶還能夠經過Job來自動維護數據,Job是當即運行或按計劃運行notebook(或JAR)的一種方法,經過Job能夠定時執行數據的清理和整合,用戶只須要設置好計劃(schedule),就能夠自動實現數據的維護。併發

用戶也能夠經過Databricks UI來監控Job的運行結果,或者發送email alert,一旦Job運行失敗或成功,用戶會收到包含Job運行結果的郵件。spa

Databricks限制一個工做區:3d

  • 最多隻能同時運行1000個Job,併發度是1000;
  • 在一個小時內,最多能夠建立5000個Job(包括「當即運行」和「運行提交」)

一,使用UI來建立Job

點擊「Jobs」圖標,進入到Jobs頁面,點擊下面的「Create Job」按鈕來建立Job:blog

輸入Job的Title,並選擇Job執行的Task。文檔

設置Job的屬性:get

  • 設置Task,能夠選擇 Notebook、 Set JAR、Configure spark-submit,一般選擇Notebook。
  • 設置Cluster:設置Job運行時使用的Cluster
  • 設置Schedule:設置計劃定時執行Job

二,當即運行Job

若要當即運行做業,請在「Active runs」列表中單擊「Run Now」:it

三,查看Job運行結果

能夠經過導出做業運行的結果來持久保存做業運行。 對於筆記本做業運行,能夠先導出呈現的筆記本,稍後再將其導入到 Databricks 工做區中。spark

1,在做業詳細信息頁中,單擊「運行」列中的做業運行名稱。io

 2,單擊「導出到 HTML」。email

 

四,控制對Job的訪問

Job的全部者和管理員能夠經過"Job Access Control"控制權限。使用做業訪問控制,做業全部者能夠選擇容許哪些其餘用戶或組查看做業的結果。 全部者還能夠選擇容許誰管理其做業的運行(即,調用「當即運行」,而後單擊「取消」)。

Step1,跳轉到Job的詳細信息頁面,點擊「Advanced」連接

 Step2,點擊Permissions後面的「Edit」連接

Step3,在彈出對話框中,經過用戶名旁邊的下拉菜單分配做業權限。

 

 

 

參考文檔:

Databricks Jobs

相關文章
相關標籤/搜索