Azure Databricks是一個可擴展的數據分析平臺,基於Apache Spark。Azure Databricks 工做區(Workspace)是一個交互式的環境,工做區把對象(notebook、library、dashboards、experiments)組織成文件夾,用於數據集成和數據分析。ios
1,工做區是一個交互式的環境編程
工做區是一個交互式的環境,能夠管理Databricks的集羣、Notebook、Job等對象。併發
2,集羣是運行Notebook和job的資源編程語言
在使用工做區中,要進行數據集成和數據分析,必須建立集羣(Cluster),Cluser表明運行notebook和job的計算資源,並用於存儲相應的配置信息。高併發
Cluster有兩種類型:通用(All-purpose)和job,all-purpose集羣是交互式的,用於通用的數據集成和數據分析任務,而job類型的集羣用於定時運行job。ui
job是一個非交互式的機制,用於當即或按照計劃來運行notebook或library。job類型的集羣在job開始時建立,在job完成時結束。spa
根據cluster的類型,把Azure Databricks的工做負載(workload)分爲兩個類型:data engineering (job) 和 data analytics (all-purpose)。對象
3,Notebook是一個基於Web的記事本blog
Notebook是一個包含可執行命令的記事本,用戶能夠在Notebook中編寫Python命令,編輯命令,並執行命令,得到輸出的結果,並能夠對結果進行可視化處理,Notebook的功能和UI相似於Jupyter Notebook。ip
經過Azure UI來建立工做區,從Azure Services中找到Azure Databricks。
建立工做區,選擇訂閱用於管理資源和成本,須要設置訂閱(Subscription)和資源組(Resource group),選擇訂價策略(Pricing Tier)。
選擇「Review + Create」,點擊Create 按鈕來建立工做區。等到工做區部署完成以後,打開Azure Databricks Service,點擊「Launch Workspace」登陸到工做區門戶。
Spark Cluster能夠看做是Databricks的計算資源,所以必須建立集羣。
1,登陸到工做區門戶
登陸(Launch)到新建的工做區門戶中,從「Common Tasks」列表中點擊「New Cluster」。
2,配置集羣
Cluster Mode:集羣的模式共有三種,High concurrency(高併發)、Standard(標準)和Single Node(單節點)。標準模式是推薦模式,一般用於單用戶的集羣。
Pool:Pool是一組空閒的隨時可用的實例,可減小集羣啓動和自動縮放的時間。當鏈接到Pool的集羣須要一個實例時,它首先嚐試分配Pool的中一個實例,若是該Pool沒有空閒的實例,那麼該Pool將經過從實例提供者分配有ige新的實例來擴展,以知足集羣的需求。集羣釋放實例後,它將返回到Pool中,並能夠提供給其餘集羣使用。只有鏈接到Pool的集羣才能使用該Pool的空閒實例。實例在Pool中處於空閒狀態時是免費的。
Databricks Runtime:運行時版本配置,選擇用於建立集羣的image,運行時是在集羣上運行的一組核心組件。
Enable autoscaling:勾選自動縮放,根據工做負載的不一樣,集羣在最大節點數量和最小節點數量之間自動縮放。
Terminate after xx minutes of inactivity:當集羣不活動時,延遲必定時間後,結束集羣。
配置完成以後,點擊頂部的「Create Clustere」 按鈕建立集羣。
Notebook是一個包含可執行命令的記事本,用戶能夠在Notebook中編寫Python命令,編輯命令,並執行命令,得到輸出的結果,並能夠對結果進行可視化處理。
從Common Tasks中選擇「New Notebook」,輸入Notebook的Name,選擇編程語言Python、選擇集羣,點擊對話框底部的「Create」按鈕建立Notebook。
在新建的Notebook中輸入命令,打印"hello world",點擊"Shift+Enter",執行命令
參考文檔:
Quickstart: Run a Spark job on Azure Databricks Workspace using the Azure portal