本文來自夏立的分享,花名雷飆,阿里巴巴計算平臺EMR高級產品專家。2014年開始接觸大數據,歷經阿里內部的大數據發展,目前在阿里雲上負責開源的大數據平臺EMR產品,構建雲上的開源生態。面試
產品介紹
阿里雲EMR的總體架構以下:算法
管理運維能力性能優化
- 集羣管理,做業管理和調度
- 操做Web化、SDK&API
徹底兼容開源系統,並在之基礎上強化架構
- Hadoop, Spark性能優化
- 監控能力能整合強化
伴隨社區發展的生態框架
- 組件跟隨開源社區保持版本升級
- 開源與阿里雲平臺的聯結者,充分發揮雲的生態能力
- 雲產品對接(OSS,SLS,MaxCompute等)
- 雲能力對接,彈性等等(本地盤實例嚴格打散,彈性伸縮能力,支持競價實例)
全球部署(全球15個region部署)運維
- 基於企業級開源大數據生態上多樣化場景方案的快速複製
提供完整的企業級的一體化平臺機器學習
常見的組合使用方式:分佈式

大數據平臺應用到的組件包括:oop
通用Hadoop性能
- 開源大數據離線、實時、Ad-hoc查詢場景
- 基於開源Hadoop生態,採用YARN管理集羣資源,提供Hive、Spark離線大規模分佈式數據存儲和計算, SparkStreaming、Flink、Storm流式數據計算,Presto、Impala交互式查詢,Oozie、Pig等Hadoop生態圈的組 件,支持OSS存儲,支持Kerberos的數據認證與加密。
Kafka
- 開源高吞吐量,可擴展性的消息系統
- E-MapReduce Kafka提供一套完整的服務監控體系和元數據管理。普遍用於日誌收集、監控數據聚合等場 景,支持離線或流式數據處理、實時數據分析等。
DataScience
- 大數據+AI場景
- Data Science針對大數據+AI場景,提供了Hive、Spark離線大數據ETL,TensorFlow模型訓練,用戶能夠選 擇CPU+GPU的異構計算框架,利用英偉達GPU對部分深度學習算法就行高性能計算。
Druid
- 實時交互式分析服務場景
- Druid提供了大數據查詢毫秒級延遲,支持多種數據攝入方式。可與E-MapReduce Hadoop、E-MapReduce Spark、阿里雲OSS、阿里雲RDS等服務搭配組合使用,構建靈活穩健的實時查詢解決方案。
Zookeeper
- 分佈式鎖
- 適用於大規模的Hadoop集羣、HBase集羣、Kafka集羣獨立的分佈式一致性鎖服務。
產品功能點
可視化集羣管理控制檯


自帶的調度系統

- 項目級別的權限管理
- 支持DAG
- 更好的彈性資源結合
- 方便的多種做業管理
- 完善的報警和監控
機器學習支持
深度學習、AI以成爲目前煊赫一時的詞彙,EMR EMR Cluster Learning將深度學習和開源大數據技術深度結合,提供 一體化的大數據+深度學習服務。利用一個集羣,構建 企業數據湖,同時進行機器學習和深度學習:
- 支持ECS GPU機型,經過Hadoop YARN調度集羣GPU資源 Spark ML
- TensorFlow Horvod • 支持TensorFlow ,Horvod等計算框架
- 可採用PS、MPI等數據通訊模式
- 支持Docker,Standalone運行模式

聲明:本號全部文章除特殊註明,都爲原創,公衆號讀者擁有優先閱讀權,未經做者本人容許不得轉載,不然追究侵權責任。
關注個人公衆號,後臺回覆【JAVAPDF】獲取200頁面試題!5萬人關注的大數據成神之路,不來了解一下嗎?5萬人關注的大數據成神之路,真的不來了解一下嗎?5萬人關注的大數據成神之路,肯定真的不來了解一下嗎?
