Azure Databricks 第一篇：初始Databricks，建立工做區、集羣和Notebook

時間 2020-12-23

標籤 ios 編程併發編程語言高併發 spa 對象 blog 欄目負載均衡简体版

原文原文鏈接

Azure Databricks是一個可擴展的數據分析平臺，基於Apache Spark。Azure Databricks 工做區（Workspace）是一個交互式的環境，工做區把對象（notebook、library、dashboards、experiments）組織成文件夾，用於數據集成和數據分析。ios

一，Azure Databricks的基本概念

1，工做區是一個交互式的環境編程

工做區是一個交互式的環境，能夠管理Databricks的集羣、Notebook、Job等對象。併發

2，集羣是運行Notebook和job的資源編程語言

在使用工做區中，要進行數據集成和數據分析，必須建立集羣（Cluster），Cluser表明運行notebook和job的計算資源，並用於存儲相應的配置信息。高併發

Cluster有兩種類型：通用（All-purpose）和job，all-purpose集羣是交互式的，用於通用的數據集成和數據分析任務，而job類型的集羣用於定時運行job。ui

job是一個非交互式的機制，用於當即或按照計劃來運行notebook或library。job類型的集羣在job開始時建立，在job完成時結束。spa

根據cluster的類型，把Azure Databricks的工做負載(workload)分爲兩個類型：data engineering (job) 和 data analytics (all-purpose)。對象

數據工程：（自動）工做負載在Job羣集上運行，Azure Databricks做業計劃程序爲每一個工做負載建立了一個工做羣集。
數據分析：（交互式）工做負載在all-purpose集羣上運行，交互式工做負載一般在Azure Databricks筆記本中運行命令，可是在現有的通用集羣上運行做業也被視爲交互式工做負載。

3，Notebook是一個基於Web的記事本blog

Notebook是一個包含可執行命令的記事本，用戶能夠在Notebook中編寫Python命令，編輯命令，並執行命令，得到輸出的結果，並能夠對結果進行可視化處理，Notebook的功能和UI相似於Jupyter Notebook。ip

二，建立Workspace

經過Azure UI來建立工做區，從Azure Services中找到Azure Databricks。

建立工做區，選擇訂閱用於管理資源和成本，須要設置訂閱（Subscription）和資源組（Resource group），選擇訂價策略（Pricing Tier）。

選擇「Review + Create」，點擊Create 按鈕來建立工做區。等到工做區部署完成以後，打開Azure Databricks Service，點擊「Launch Workspace」登陸到工做區門戶。

三，建立Spark Cluster

Spark Cluster能夠看做是Databricks的計算資源，所以必須建立集羣。

1，登陸到工做區門戶

登陸（Launch）到新建的工做區門戶中，從「Common Tasks」列表中點擊「New Cluster」。

2，配置集羣

Cluster Mode：集羣的模式共有三種，High concurrency（高併發）、Standard（標準）和Single Node（單節點）。標準模式是推薦模式，一般用於單用戶的集羣。

Pool：Pool是一組空閒的隨時可用的實例，可減小集羣啓動和自動縮放的時間。當鏈接到Pool的集羣須要一個實例時，它首先嚐試分配Pool的中一個實例，若是該Pool沒有空閒的實例，那麼該Pool將經過從實例提供者分配有ige新的實例來擴展，以知足集羣的需求。集羣釋放實例後，它將返回到Pool中，並能夠提供給其餘集羣使用。只有鏈接到Pool的集羣才能使用該Pool的空閒實例。實例在Pool中處於空閒狀態時是免費的。

Databricks Runtime：運行時版本配置，選擇用於建立集羣的image，運行時是在集羣上運行的一組核心組件。

Enable autoscaling：勾選自動縮放，根據工做負載的不一樣，集羣在最大節點數量和最小節點數量之間自動縮放。

Terminate after xx minutes of inactivity：當集羣不活動時，延遲必定時間後，結束集羣。

配置完成以後，點擊頂部的「Create Clustere」按鈕建立集羣。