阿里雲E-MapReduce產品探祕，快速構建可擴展的高性能大數據平臺

時間 2019-11-17

標籤阿里 mapreduce 產品探祕快速構建可擴展高性能數據平臺欄目阿里巴巴简体版

原文原文鏈接

本文來自夏立的分享，花名雷飆，阿里巴巴計算平臺EMR高級產品專家。2014年開始接觸大數據，歷經阿里內部的大數據發展，目前在阿里雲上負責開源的大數據平臺EMR產品，構建雲上的開源生態。面試

產品介紹

阿里雲EMR的總體架構以下：算法

管理運維能力性能優化

集羣管理，做業管理和調度
操做Web化、SDK&API

徹底兼容開源系統，並在之基礎上強化架構

Hadoop, Spark性能優化
監控能力能整合強化

伴隨社區發展的生態框架

組件跟隨開源社區保持版本升級
開源與阿里雲平臺的聯結者，充分發揮雲的生態能力
雲產品對接（OSS，SLS，MaxCompute等）
雲能力對接，彈性等等（本地盤實例嚴格打散，彈性伸縮能力，支持競價實例）

全球部署（全球15個region部署）運維

基於企業級開源大數據生態上多樣化場景方案的快速複製

提供完整的企業級的一體化平臺機器學習

打包計算平臺能力
開箱即用的體驗

常見的組合使用方式：分佈式

大數據平臺應用到的組件包括：oop

通用Hadoop性能

開源大數據離線、實時、Ad-hoc查詢場景
基於開源Hadoop生態，採用YARN管理集羣資源，提供Hive、Spark離線大規模分佈式數據存儲和計算， SparkStreaming、Flink、Storm流式數據計算，Presto、Impala交互式查詢，Oozie、Pig等Hadoop生態圈的組件，支持OSS存儲，支持Kerberos的數據認證與加密。

Kafka

開源高吞吐量，可擴展性的消息系統
E-MapReduce Kafka提供一套完整的服務監控體系和元數據管理。普遍用於日誌收集、監控數據聚合等場景，支持離線或流式數據處理、實時數據分析等。

DataScience

大數據+AI場景
Data Science針對大數據+AI場景，提供了Hive、Spark離線大數據ETL，TensorFlow模型訓練，用戶能夠選擇CPU+GPU的異構計算框架，利用英偉達GPU對部分深度學習算法就行高性能計算。

Druid

實時交互式分析服務場景
Druid提供了大數據查詢毫秒級延遲，支持多種數據攝入方式。可與E-MapReduce Hadoop、E-MapReduce Spark、阿里雲OSS、阿里雲RDS等服務搭配組合使用，構建靈活穩健的實時查詢解決方案。

Zookeeper

分佈式鎖
適用於大規模的Hadoop集羣、HBase集羣、Kafka集羣獨立的分佈式一致性鎖服務。

產品功能點

可視化集羣管理控制檯

自帶的調度系統

項目級別的權限管理
支持DAG
更好的彈性資源結合
方便的多種做業管理
完善的報警和監控

機器學習支持

深度學習、AI以成爲目前煊赫一時的詞彙，EMR EMR Cluster Learning將深度學習和開源大數據技術深度結合，提供一體化的大數據+深度學習服務。利用一個集羣，構建企業數據湖，同時進行機器學習和深度學習：

支持ECS GPU機型，經過Hadoop YARN調度集羣GPU資源 Spark ML
TensorFlow Horvod • 支持TensorFlow ，Horvod等計算框架
可採用PS、MPI等數據通訊模式
支持Docker，Standalone運行模式

聲明：本號全部文章除特殊註明，都爲原創，公衆號讀者擁有優先閱讀權，未經做者本人容許不得轉載，不然追究侵權責任。

關注個人公衆號，後臺回覆【JAVAPDF】獲取200頁面試題！5萬人關注的大數據成神之路，不來了解一下嗎？5萬人關注的大數據成神之路，真的不來了解一下嗎？5萬人關注的大數據成神之路，肯定真的不來了解一下嗎？

歡迎您關注《大數據成神之路》

相關文章

相關標籤/搜索

阿里雲產品評測

阿里雲產品公測

阿里雲大學

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<