快速掌握阿里雲 E-MapReduce

時間 2019-11-06

原文原文鏈接

阿里雲 Elastic MapReduce（E-MapReduce）是一種大數據處理的系統解決方案。構建於阿里云云服務器 ECS 上，基於開源的 Apache Hadoop 和 Apache Spark，讓用戶能夠方便地使用Hadoop和Spark生態系統中的其餘周邊系統（如 Apache Hive、Apache Pig、HBase 等）來分析和處理本身的數據。用戶還能夠經過E-MapReduce將數據很是方便的導入和導出到阿里雲其餘的雲數據存儲系統和數據庫系統中，如阿里雲 OSS、阿里雲 RDS 等。node

E-MapReduce 的用途數據庫

當用戶想要使用 Hadoop、Spark 等分佈式處理系統的時候，一般須要經歷以下的步驟：服務器

評估業務特色
選擇機器類型
採購機器
準備硬件環境
安裝操做系統
部署 Hadoop 和 Spark 等 app
啓動集羣
編寫應用程序
運行做業
獲取數據等一系列的步驟

在這些流程中，真正跟用戶的應用邏輯相關的是從第8步纔開始，第1-7步的各項工做都是前期的準備工做，一般這個前期工做都很是冗長繁瑣。而 E-MapReduce 提供了集羣管理工具的集成解決方案，如主機選型、環境部署、集羣搭建、集羣配置、集羣運行、做業配置、做業運行、集羣管理、性能監控等。app

經過使用 E-MapReduce，用戶能夠從集羣構建各類繁瑣的採購、準備、運維等工做中解放出來，只關心本身應用程序的處理邏輯便可。此外，E-MapReduce 還給用戶提供了靈活的搭配組合方式，用戶能夠根據本身的業務特色選擇不一樣的集羣服務。例如，若是用戶的需求是對數據進行平常統計和簡單的批量運算，則能夠只選擇在 E-MapReduce 中運行 Hadoop 服務；而若是用戶還須要流式計算和實時計算的需求，則能夠在 Hadoop 服務基礎上再加入 Spark 服務。運維

E-MapReduce 的組成分佈式

E-MapReduce 最核心也是用戶直接面對的組件是集羣。一個 E-MapReduce 集羣是由一個或多個阿里雲 ECS instance 組成的 Hadoop 和 Spark 集羣。以 Hadoop 爲例，在每個 ECS instance 上，一般都運行了一些 daemon 進程（如 namenode、datanode、resoucemanager 和 nodemanager），這些 daemon 進程就組成了 Hadoop 集羣。運行 namenode 和 resourcemanager 的節點被稱爲 master 節點，而運行 datanode 和 nodemanager 的節點被稱爲 slave 節點。工具

教學課程：阿里雲 E-MapReduce學習oop

（課程主要介紹阿里雲 E-MapReduce 的使用方法）性能

教學大綱學習

教學課時

課時1：E-Mapreduce基本介紹 13:52

課時2：E-Mapreduce基本介紹（PPT）

課時3：E-Mapreduce數據同步 13:12

課時4：E-Mapreduce數據同步（PPT）

課時5：E-Mapreduce離線處理 15:47

課時6：E-Mapreduce離線處理（PPT）

課時7：E-Mapreduce流式處理 15:38

課時8：E-Mapreduce流式處理（PPT）