Azure Databricks 第一篇:初始Databricks,建立工做區、集羣和Notebook

Azure Databricks是一個可擴展的數據分析平臺,基於Apache Spark。Azure Databricks 工做區(Workspace)是一個交互式的環境,工做區把對象(notebook、library、dashboards、experiments)組織成文件夾,用於數據集成和數據分析。ios

一,Azure Databricks的基本概念

1,工做區是一個交互式的環境編程

工做區是一個交互式的環境,能夠管理Databricks的集羣、Notebook、Job等對象。併發

2,集羣是運行Notebook和job的資源編程語言

在使用工做區中,要進行數據集成和數據分析,必須建立集羣(Cluster),Cluser表明運行notebook和job的計算資源,並用於存儲相應的配置信息。高併發

Cluster有兩種類型:通用(All-purpose)和job,all-purpose集羣是交互式的,用於通用的數據集成和數據分析任務,而job類型的集羣用於定時運行job。ui

job是一個非交互式的機制,用於當即或按照計劃來運行notebook或library。job類型的集羣在job開始時建立,在job完成時結束。spa

根據cluster的類型,把Azure Databricks的工做負載(workload)分爲兩個類型:data engineering (job) 和 data analytics (all-purpose)。對象

  • 數據工程:(自動)工做負載在Job羣集上運行,Azure Databricks做業計劃程序爲每一個工做負載建立了一個工做羣集。
  • 數據分析:(交互式)工做負載在all-purpose集羣上運行,交互式工做負載一般在Azure Databricks筆記本中運行命令,可是在現有的通用集羣上運行做業也被視爲交互式工做負載。

3,Notebook是一個基於Web的記事本blog

Notebook是一個包含可執行命令的記事本,用戶能夠在Notebook中編寫Python命令,編輯命令,並執行命令,得到輸出的結果,並能夠對結果進行可視化處理,Notebook的功能和UI相似於Jupyter Notebook。ip

二,建立Workspace

經過Azure UI來建立工做區,從Azure Services中找到Azure Databricks。

建立工做區,選擇訂閱用於管理資源和成本,須要設置訂閱(Subscription)和資源組(Resource group),選擇訂價策略(Pricing Tier)。

選擇「Review + Create」,點擊Create 按鈕來建立工做區。等到工做區部署完成以後,打開Azure Databricks Service,點擊「Launch Workspace」登陸到工做區門戶。

三,建立Spark Cluster

Spark Cluster能夠看做是Databricks的計算資源,所以必須建立集羣。

1,登陸到工做區門戶

登陸(Launch)到新建的工做區門戶中,從「Common Tasks」列表中點擊「New Cluster」。

2,配置集羣 

Cluster Mode:集羣的模式共有三種,High concurrency(高併發)、Standard(標準)和Single Node(單節點)。標準模式是推薦模式,一般用於單用戶的集羣。

Pool:Pool是一組空閒的隨時可用的實例,可減小集羣啓動和自動縮放的時間。當鏈接到Pool的集羣須要一個實例時,它首先嚐試分配Pool的中一個實例,若是該Pool沒有空閒的實例,那麼該Pool將經過從實例提供者分配有ige新的實例來擴展,以知足集羣的需求。集羣釋放實例後,它將返回到Pool中,並能夠提供給其餘集羣使用。只有鏈接到Pool的集羣才能使用該Pool的空閒實例。實例在Pool中處於空閒狀態時是免費的。

Databricks Runtime:運行時版本配置,選擇用於建立集羣的image,運行時是在集羣上運行的一組核心組件。

Enable autoscaling:勾選自動縮放,根據工做負載的不一樣,集羣在最大節點數量和最小節點數量之間自動縮放。

Terminate after xx minutes of inactivity:當集羣不活動時,延遲必定時間後,結束集羣。

配置完成以後,點擊頂部的「Create Clustere」 按鈕建立集羣。

四,建立Notebook

Notebook是一個包含可執行命令的記事本,用戶能夠在Notebook中編寫Python命令,編輯命令,並執行命令,得到輸出的結果,並能夠對結果進行可視化處理。

從Common Tasks中選擇「New Notebook」,輸入Notebook的Name,選擇編程語言Python、選擇集羣,點擊對話框底部的「Create」按鈕建立Notebook。

在新建的Notebook中輸入命令,打印"hello world",點擊"Shift+Enter",執行命令

 

 

參考文檔:

Quickstart: Run a Spark job on Azure Databricks Workspace using the Azure portal

相關文章
相關標籤/搜索