阿里雲E-MapReduce產品探祕,快速構建可擴展的高性能大數據平臺

本文來自夏立的分享,花名雷飆,阿里巴巴計算平臺EMR高級產品專家。2014年開始接觸大數據,歷經阿里內部的大數據發展,目前在阿里雲上負責開源的大數據平臺EMR產品,構建雲上的開源生態。面試

產品介紹

阿里雲EMR的總體架構以下:算法

管理運維能力性能優化

  • 集羣管理,做業管理和調度
  • 操做Web化、SDK&API

徹底兼容開源系統,並在之基礎上強化架構

  • Hadoop, Spark性能優化
  • 監控能力能整合強化

伴隨社區發展的生態框架

  • 組件跟隨開源社區保持版本升級
  • 開源與阿里雲平臺的聯結者,充分發揮雲的生態能力
  • 雲產品對接(OSS,SLS,MaxCompute等)
  • 雲能力對接,彈性等等(本地盤實例嚴格打散,彈性伸縮能力,支持競價實例)

全球部署(全球15個region部署)運維

  • 基於企業級開源大數據生態上多樣化場景方案的快速複製

提供完整的企業級的一體化平臺機器學習

  • 打包計算平臺能力
  • 開箱即用的體驗

常見的組合使用方式:分佈式

file

大數據平臺應用到的組件包括:oop

通用Hadoop性能

  • 開源大數據離線、實時、Ad-hoc查詢場景
  • 基於開源Hadoop生態,採用YARN管理集羣資源,提供Hive、Spark離線大規模分佈式數據存儲和計算, SparkStreaming、Flink、Storm流式數據計算,Presto、Impala交互式查詢,Oozie、Pig等Hadoop生態圈的組 件,支持OSS存儲,支持Kerberos的數據認證與加密。

Kafka

  • 開源高吞吐量,可擴展性的消息系統
  • E-MapReduce Kafka提供一套完整的服務監控體系和元數據管理。普遍用於日誌收集、監控數據聚合等場 景,支持離線或流式數據處理、實時數據分析等。

DataScience

  • 大數據+AI場景
  • Data Science針對大數據+AI場景,提供了Hive、Spark離線大數據ETL,TensorFlow模型訓練,用戶能夠選 擇CPU+GPU的異構計算框架,利用英偉達GPU對部分深度學習算法就行高性能計算。

Druid

  • 實時交互式分析服務場景
  • Druid提供了大數據查詢毫秒級延遲,支持多種數據攝入方式。可與E-MapReduce Hadoop、E-MapReduce Spark、阿里雲OSS、阿里雲RDS等服務搭配組合使用,構建靈活穩健的實時查詢解決方案。

Zookeeper

  • 分佈式鎖
  • 適用於大規模的Hadoop集羣、HBase集羣、Kafka集羣獨立的分佈式一致性鎖服務。

產品功能點

可視化集羣管理控制檯

filefile

自帶的調度系統

file

  • 項目級別的權限管理
  • 支持DAG
  • 更好的彈性資源結合
  • 方便的多種做業管理
  • 完善的報警和監控

機器學習支持

深度學習、AI以成爲目前煊赫一時的詞彙,EMR EMR Cluster Learning將深度學習和開源大數據技術深度結合,提供 一體化的大數據+深度學習服務。利用一個集羣,構建 企業數據湖,同時進行機器學習和深度學習:

  • 支持ECS GPU機型,經過Hadoop YARN調度集羣GPU資源 Spark ML
  • TensorFlow Horvod • 支持TensorFlow ,Horvod等計算框架
  • 可採用PS、MPI等數據通訊模式
  • 支持Docker,Standalone運行模式

file

聲明:本號全部文章除特殊註明,都爲原創,公衆號讀者擁有優先閱讀權,未經做者本人容許不得轉載,不然追究侵權責任。

關注個人公衆號,後臺回覆【JAVAPDF】獲取200頁面試題!5萬人關注的大數據成神之路,不來了解一下嗎?5萬人關注的大數據成神之路,真的不來了解一下嗎?5萬人關注的大數據成神之路,肯定真的不來了解一下嗎?

歡迎您關注《大數據成神之路》

大數據技術與架構

相關文章
相關標籤/搜索