Hadoop生態體系日臻完善,如何利用Hadoop生態各項技術與阿里雲更好的服務於企業。EMR最新發布的工做流管理、彈性伸縮、異構計算多項功能,更好的助力用戶在阿里雲上利用Hadoop、Spark生態體系解決企業大數據問題。shell
EMR數據開發工做臺
EMR數據開發工做臺集成了做業編輯、工做編輯和臨時查詢等功能,能更好的知足用戶雲上離線數據處理、數據分析和探索挖掘等場景。主要特色在於:框架
- 支持多樣化的大數據做業,支持shell,Hive,MapReduce,Spark,SparkStreaming等多種離線,實時類型做業,企業數據開發人員可在線編輯,調試。
- 更低的數據開發門檻,用戶經過拖拽式的大數據開發完成數據的接入,相較於Oozie、Azkaban等開源解決方案,運營人員,數據科學家能夠更直觀的進行大數據開發。
- 交互式數據探索,爲用戶提供交互式Hive、SparkSQL查詢、分析,快速提取海量數據價值。
集羣彈性伸縮
EMR彈性伸縮能更好的縫合公有云計算資源彈性和Hadoop生態體系開放的兩大優點,實現計算資源根據集羣繁忙程度彈性伸縮,幫助企業下降Hadoop資源的使用成本。機器學習
- 定時擴縮容集羣,用戶設置在制定時間對集羣進行擴容、縮容,知足日報、週報、月報等需臨時追加計算資源的場景。
- 支持多種ECS實例,受ECS庫存影響,彈性伸縮會因爲庫存不足形成執行失敗,爲提高伸縮動做執行成功機率,彈性伸縮可同時支持多種ECS實例,且能一次性把儘可能多的庫存資源所有買出,保證集羣資源。
EMR Learning
深度學習、AI以成爲目前煊赫一時的詞彙,EMR Learning將深度學習和開源大數據技術深度結合,提供一體化的大數據+深度學習服務。利用一個集羣,構建企業數據湖,同時進行機器學習和深度學習。oop
- 支持ECS CPU+GPU的異構計算,經過Hadoop YARN調度集羣GPU資源
- 支持Horvod,TensorFlow,SparkML等計算框架,一個集羣內進行機器學習和深度學習。
- 可採用PS、MPI等數據通訊模式,解決深度學習的通訊瓶頸
- 支持Docker,Muti-Env多運行環境隔離