配置微軟Azure大數據HDInsight雲集羣,存儲帳戶、託管標識等問題也都參考官方文檔解決了。
原文在個人開源中國博客 https://my.oschina.net/finchxu/blog/3164887node
微軟Azure爲國外學生提供了100美圓額度的免費一年的帳戶,爲國內我的用戶提供了1500人民幣額度的「免費」一個月帳戶(花費1元便可得到)。linux
一元體驗帳戶申請連接:https://www.azure.cn/pricing/1rmb-trial-full/?form-type=identityauthweb
這個帳戶能使用完整的微軟Azure中國區域資源,包括虛擬機、存儲、數據分析等。這裏直接配置 HDInsight 大數據分析平臺。網絡
1. 首先依次找到「建立資源」=>「數據+分析」=>「 HDInsight 」點擊進入配置目錄。ssh
這裏開始第一步,ide
(1)填寫cluster name以方便後來經過web訪問你的全部資源。oop
(2)cluster typer選Hadoop2.7就行。大數據
(3)login name 和密碼呢,寫好記住就行,也是後邊經過web訪問的時候要用的。url
(4)Resource group你本身新建一個起個名字便可。.net
(5)地區的話,選擇離你近的,中部或者東部均可以。這裏要注意,後邊別的設置也要選擇一樣的地區才行。
2. 點擊next後進入第二步。配置存儲。
咱們在建立Azure帳戶的時候就默認建立了管理員帳戶,這裏還要建立獨立的存儲帳戶
(1)首先在左側邊欄找到「存儲帳戶」,右鍵在新的標籤頁打開(意思就是不要關閉現有頁面)。
這裏的資源組填選擇和上邊第一步中的resource group同樣的就行,後邊的全部資源也是都選這一個資源組就行了。
點擊下一步後,「網絡」默認,「高級」中啓用「 層次結構命名空間 」,後邊的就都是默認就好了。最後點擊「建立」稍等就完成了。
帳戶建立完畢了,存儲器其實還不能使用,咱們須要建立「託管標識」來管理權限問題。
在最上邊搜索條中,搜索「託管標識」,以下圖所示
點擊打開後,選擇 添加 便可,這個建立很簡單。注意資源組一直都是選同一個,不要新建。
這時候呢,咱們把新建的 託管標識 附加到剛纔建立的 存儲帳戶 上就完成了。
(1.a)回到 存儲帳戶 頁面,點擊資源進入詳頁
(1.b)在左側邊欄找到 「訪問控制(標識和訪問管理)」
(1.c)點擊「添加」=>「添加角色分配」
(1.d)按照下圖所示,「角色」 選擇 「存儲Blob數據全部者」,訪問權限 選擇 「用戶分配的託管標識」,下邊自動列出了剛纔建立的「託管標識」。這時候選擇,並點擊保存便可。
(2)這時候回到最開始的頁面,也就是 HDInsight 配置頁面,咱們接着配置第二步。
(2.a)「Primary storage type」 選擇 「Azure Date Lake Storage Gen2」 (2.b)下邊「select a storage account」 點擊選擇剛纔建立的存儲帳戶便可。
(2.c)這裏的Identity就是咱們上邊建立的 「託管標識」,在「User-assigned managed identity」中選擇以前建立好的託管標識就好啦。
到這裏就能夠點擊next進行下一步了,不過這裏的metastore元數據存儲能夠自定義,這樣你的集羣被刪除的時候,hive元數據都完整無缺。
3. 這裏來到了最後一步。
這裏你會發現爲何費用這麼高?別急,咱們點擊 「Cluster size」 就能夠選擇節點機器的配置來節省。
在右邊窗口點擊 瀏覽所有配置 就能夠找到低價的。還有能夠設置 「Worker nodes」 的數量,hdfs嘛,最低也要來兩臺吧,這樣hdfs也有100G了。
4. 這時候把剩餘的「下一步」點完,就等待他自動建立集羣吧,20mins左右完成,回到儀表板就能找到建立好的資源。點擊右邊的url就能看到全部資源的控制面板了。大功告成。點擊url後會提示輸入用戶名和密碼,,這倆就是上邊第一步填寫的 「cluster login username&password」 還有ssh登陸也是上邊寫好的。
微軟大法好!!!微軟的文檔都寫得特別詳細完整。這一點微軟歷來都作的特別厲害!!!
參考文檔:
https://docs.microsoft.com/zh-cn/azure/hdinsight/hdinsight-hadoop-provision-linux-clusters
https://docs.microsoft.com/zh-cn/azure/hdinsight/hdinsight-hadoop-use-data-lake-storage-gen2