今天,咱們宣佈正式發佈 Windows Azure HDInsight 服務。HDInsight 是 Microsoft 提供的基於 Hadoop 的服務,爲雲提供 100% 的 Apache Hadoop 解決方案。shell
HDInsight 具備如下優點:編程
· 經過熟悉的工具洞察:經過與 Microsoft BI 工具(如 PowerPivot、Power View)進行深度集成,HDInsight 使您能夠利用 Hadoop 輕鬆找到洞察數據信息。實現 HDInsight 等多個源的數據與 Power Query 的無縫結合。在 Excel 2013 中,使用全新的 3D 地圖工具 Power Map 輕鬆將您的數據顯示在地圖上。windows
· 靈活性:HDInsight 可提供靈活性,以知足組織不斷變化的需求。豐富的 Powershell 腳本將 Hadoop 羣集的部署和配置時間由數小時甚至數天減小到幾分鐘。若是您須要更大的羣集,僅需刪除您的羣集並建立一個更大的羣集便可,這一過程只需幾分鐘時間,並且不會丟失任何數據。安全
· 企業級 Hadoop:HDInsight 具備企業級的安全性和可管理性。得益於專用 Secure Node,HDInsight 有助於更好地保護您的 Hadoop 羣集。此外,咱們還經過 PowerShell 腳本的擴展支持簡化了 Hadoop 羣集的管理。異步
· 豐富的開發人員體驗:HDInsight 提供強大的編程功能及多個語言選項,包括 .NET、Java 以及其餘語言。.NET 開發人員可將 LINQ 的語言集成查詢的所有功能運用到 Hive 中。工具
HDInsight 入門oop
經過單擊新建按鈕並從 Data Services 菜單中選擇 HDInsight,可從 Windows Azure 管理門戶建立 HDInsight 羣集。要建立 HDInsight 羣集,請指定羣集名稱、羣集大小(即數據節點數)和登陸密碼。spa
羣集必須至少具備一個與其關聯的存儲賬戶,以做爲羣集的永久存儲機制,而且建立羣集的區域始終與選擇的存儲賬戶相同。正式發佈時,存儲賬戶必須位於美國西部、美國東部或北歐才能與 HDInsight 羣集相關聯。可經過自定義建立選項將其餘存儲賬戶與羣集關聯起來。命令行
部署和配置羣集將須要幾分鐘時間,準備就緒後您將看到一個開始屏幕,其中提供有關其餘幫助內容的連接以及使用 HDInsight 運行第一個 Hadoop 做業的一些示例代碼。翻譯
若是您在羣集的 HDInsight 頁上選擇儀表板選項卡,您將看到如下屏幕,屏幕上提供了有關羣集當前狀態的一些基本信息,包括使用的內核數、做業歷史記錄以及連接到的存儲賬戶。
提交第一個 Map Reduce 做業
在提交第一個做業以前,必須先準備好開發環境以使用 HDInsight PowerShell cmdlet。PowerShell cmdlet 須要安裝和配置如下兩個主要組件:Windows Azure Powershell 和 HDInsight PowerShell 工具。按照開始屏幕步驟 1 中的連接設置您的環境。
開始頁面上的屏幕顯示了用於提交 Hive 或 MapReduce 做業的命令示例。如今,咱們首先提交 MapReduce 做業。
使用這些命令來運行示例,以建立做業定義。做業定義包含有關做業的全部信息,例如要使用的映射程序和化簡程序、用做輸入的數據以及存儲輸出的位置。在此示例中,咱們將使用羣集中包含的示例 MapReduce 程序和示例文件。咱們將在示例目錄中建立一個輸出目錄來存儲結果。
$jarFile= "/example/jars/hadoop-examples.jar"
$className= "wordcount"
$statusDirectory= "/samples/wordcount/status"
$outputDirectory= "/samples/wordcount/output"
$inputDirectory= "/example/data/gutenberg"
$wordCount= New-AzureHDInsightMapReduceJobDefinition -JarFile $jarFile -ClassName
$className-Arguments $inputDirectory, $outputDirectory -StatusFolder$statusDirectory
運行這些命令以獲取訂閱信息並開始執行 MapReduce 程序。MapReduce 做業一般要運行較長時間,所以示例中顯示瞭如何使用異步命令開始執行做業。
$subscriptionId= (Get-AzureSubscription -Current).SubscriptionId
$wordCountJob= $wordCount | Start-AzureHDInsightJob -Cluster HadoopIsAwesome -
Subscription$subscriptionId | Wait-AzureHDInsightJob -Subscription $subscriptionId
最後,運行此命令以檢索執行結果並在 PowerShell 命令行中顯示這些結果。
Get-AzureHDInsightJobOutput-Subscription (Get-AzureSubscription -Current).SubscriptionId -
Clusterbc-newhdstorage -JobId $wordCountJob.JobId –StandardError
MapReduce 做業的結果是有關做業執行的信息,以下所示。
做業輸出位於存儲賬戶的「/samples/wordcount/output」目錄中。在 Windows Azure 門戶中打開存儲查看器並導航到該文件,如下載並查看輸出文件。
提交第一個 Hive 做業
開始頁面上的屏幕顯示了用於鏈接到您的羣集並提交 Hive 做業的命令示例。單擊 Job type 部分的 Hive 按鈕查看示例。
如今經過在 PowerShell 中執行如下命令來運行此示例,以鏈接到您的羣集。
Use-AzureHDInsightClusterHadoopIsAwesome (Get-AzureSubscription -Current).SubscriptionID
接下來運行如下命令,將 HiveQL 語句提交到羣集。該語句使用建立時在羣集上默認設置的示例 Hive 表。
Invoke-Hive"select country, state, count(*) as records from hivesampletable group bycountry, state order by records desc limit 5"
該查詢是一個至關簡單的 select-groupby 操做,完成後將在 PowerShell 命令行中顯示結果。
瞭解更多
在本博客中,咱們向您展現了啓動和運行 HDInsight 羣集並對數據進行分析有多麼簡單。您還能夠進一步瞭解有關 HDInsight 的其餘信息,如上傳本身的數據集、運行復雜的做業以及對結果進行分析。 有關使用 HDInsight 的更多詳細信息,請訪問 HDInsight 文檔頁或使用如下連接直接訪問幫助文章。
· 使用 Power Query 將 Excel 鏈接到 Windows Azure HDInsight
有關訂價的詳細信息,請訪問 HDInsight 訂價詳細信息頁。
本文翻譯自: