快速掌握阿里雲 E-MapReduce

時間 2019-11-12

原文原文鏈接

阿里雲 Elastic MapReduce（E-MapReduce）是運行在阿里雲平臺上的一種大數據處理的系統解決方案。E-MapReduce 構建於阿里云云服務器 ECS 上，基於開源的 Apache Hadoop 和 Apache Spark，讓用戶能夠方便地使用Hadoop和Spark生態系統中的其餘周邊系統（如 Apache Hive、Apache Pig、HBase 等）來分析和處理本身的數據。不只如此，用戶還能夠經過E-MapReduce將數據很是方便的導出和導入到阿里雲其餘的雲數據存儲系統和數據庫系統中，如阿里雲 OSS、阿里雲 RDS 等。node

課程連接：快速掌握阿里雲 E-MapReduce數據庫

E-MapReduce 的用途：安全

當用戶想要使用 Hadoop、Spark 等分佈式處理系統的時候，一般須要經歷以下的步驟：服務器

評估業務特色
選擇機器類型
採購機器
準備硬件環境
安裝操做系統
部署 Hadoop 和 Spark 等 app
啓動集羣
編寫應用程序
運行做業
獲取數據等一系列的步驟

在這些流程中，真正跟用戶的應用邏輯相關的是從第8步纔開始，第1-7步的各項工做都是前期的準備工做，一般這個前期工做都很是冗長繁瑣。而 E-MapReduce 提供了集羣管理工具的集成解決方案，如主機選型、環境部署、集羣搭建、集羣配置、集羣運行、做業配置、做業運行、集羣管理、性能監控等。架構

經過使用 E-MapReduce，用戶能夠從集羣構建各類繁瑣的採購、準備、運維等工做中解放出來，只關心本身應用程序的處理邏輯便可。此外，E-MapReduce 還給用戶提供了靈活的搭配組合方式，用戶能夠根據本身的業務特色選擇不一樣的集羣服務。例如，若是用戶的需求是對數據進行平常統計和簡單的批量運算，則能夠只選擇在 E-MapReduce 中運行 Hadoop 服務；而若是用戶還須要流式計算和實時計算的需求，則能夠在 Hadoop 服務基礎上再加入 Spark 服務。app

E-MapReduce 的組成：運維

E-MapReduce 最核心也是用戶直接面對的組件是集羣。一個 E-MapReduce 集羣是由一個或多個阿里雲 ECS instance 組成的 Hadoop 和 Spark 集羣。以 Hadoop 爲例，在每個 ECS instance 上，一般都運行了一些 daemon 進程（如 namenode、datanode、resoucemanager 和 nodemanager），這些 daemon 進程就組成了 Hadoop 集羣。運行 namenode 和 resourcemanager 的節點被稱爲 master 節點，而運行 datanode 和 nodemanager 的節點被稱爲 slave 節點。分佈式

例如，下圖表示了一個包含1個 master 節點和3個 slave 節點的 E-MapReduce 集羣：工具