一文了解螞蟻金服今年KubeCon所有重磅分享

時間 2019-11-21

標籤一文瞭解螞蟻今年 kubecon 所有重磅分享简体版

原文原文鏈接

6 月 24 日，國內雲原生領域最重要的會議即未來襲！KubeCon + CloudNativeCon + Open Source Summit China 2019 將在上海召開，螞蟻金服這次也會重度參與，由多名技術專家進行分享並組織 workshop，爲參會者獻上技術的饕餮盛宴。安全

本次大會上，螞蟻金服將會重點分享 Kubernetes 集羣的管理、深度學習任務在 Kubernetes 上的大規模部署和調優、互聯網金融、安全容器等前沿課題。從 2016 年起，螞蟻金服開始深度使用 Kubernetes，並做爲最終用戶案例被 CNCF 官方推薦：網絡

目前，螞蟻金服不只在圍繞 CNCF 的雲原生開源技術方面作出貢獻，也開源了本身的金融級雲原生分佈式解決方案 SOFAStack，本次大會上螞蟻金服將以 Workshop 的形式展現使用SOFAStack 來快速實現 Service Mesh 和 Serverless，歡迎關注。

具體分享內容以下：架構

議題一覽

經過託管 CPU 和 GPU 工做負載，實現資源的高效利用

螞蟻金服平臺數據技術系統部技術專家岑鵬浩

阿里雲容器平臺高級技術專家何劍

議題簡介框架

本次演講主要介紹如何將 AI training 任務和長服務在 Kubernetes 集羣之上混部。主要目的是經過混部各類 workload 提升資源利用率，從而節省資源。咱們會從各個不一樣的維度包括 Qos class, cgroup, scheduling 等等來描述咱們如何實現混部，以及如何評估利用率。過去幾個月中，咱們構建了一個幾百節點的 GPU 和 CPU 混部集羣，咱們會介紹在生產集羣中混合部署長服務和AI批處理任務的最佳實踐。less

再也不混亂：大規模 Kubernetes 審計和檢查

阿里雲容器平臺技術專家陳杰

螞蟻金服高級開發工程師馬金晶

議題簡介機器學習

衆所周知，準確的異常發現和快速的問題分析是保證 Kubernetes 集羣可用性和穩定性的關鍵所在。但在整個 Kubernetes 項目中，有着不可勝數的監控指標數據。僅以咱們的 Kubernetes 集羣爲例，咱們觀察到像這樣的監控數據每秒鐘就會產生幾千條。如何合理地利用這些複雜而大量的數據和指標，對它們有效的進行記錄和分析，變成簡單易懂的可視化展現，變成準確的告警信息，是一個很是有挑戰性的工做。分佈式

在這個演講中，咱們但願與你們分享在 Alibaba 在 Kubernetes 集羣監控、審計和巡檢方面的實踐和經驗。首先，咱們會聊一聊 Kubernetes 與穩定性相關的重要數據和指標，以及如何去理解它們。咱們會以案例的形式，具體講一講咱們如何對這些數據和指標進行整合與解析。最後，咱們會分享阿里巴巴高效、實時的對這些數據進行自動化巡檢與分析的最佳實踐。微服務

有效可靠地管理大規模 Kubernetes 集羣

螞蟻金服高級開發工程師張勇

螞蟻金服技術專家林志賢

議題簡介工具

隨着業務的增加，咱們須要將 Kubernetets 部署到世界各地的多個數據中心。單個數據中心中就擁有超過數萬個節點。咱們面臨的關鍵挑戰是如何高效、可靠地在數據中心內管理多個大規模 Kubernetes 集羣。性能

在本次演講中，咱們將分享實現大規模集羣管理自動化的經驗和實踐。首先，咱們將介紹全自動化節點生命週期管理，以及如何基於 NPD、Autoscaler 和自定義運算符自動發現和恢復節點故障。而後，咱們將分享部署和升級 Kubernetes 集羣的經驗和解決方案。最後，咱們將分享基於 Prometheus 和運算符的風險防控系統，該系統可確保集羣可靠性，具備自動故障檢測和隔離的能力。

爲互聯網金融關鍵任務場景拓展部署

螞蟻金服高級開發工程師周夢伊

螞蟻金服技術專家吳珂

議題簡介

默認部署方法爲執行常規版本升級提供了一種良好的解決方案。可是，將高可用性和可靠性的大規模服務部署爲互聯網金融應用尚且另當別論，更不用說這種工做負載在現有操做系統和維護系統下所面臨的兼容性問題了。

螞蟻金服引入的新工做負載可以讓這些問題迎刃而解。它可以經過可靠而靈活的分發、風險控制的部署策略以及高性能的就地更新擴展部署能力。它尤爲消除了金融服務行業所面臨的技術障礙，使開發商和運營商可以專心發展核心業務。

Kubernetes 集羣的大規模分佈式深度學習

螞蟻金服技術專家唐源

Director of Engineering, MobileIron Yong Tang

議題簡介

本次演講的重點是在 Kubernetes 上部署大規模分佈式深度學習。此外，還將介紹如何經過使用運算符來管理和並實現機器學習訓練過程自動化。咱們將分享咱們的經驗，並比較兩個開源 Kubernetes 運算符：tf-operator 和 mpi-operator。這兩個運算符都爲 TensorFlow 管理訓練任務，但有着不一樣的分配策略，這就形成了 CPU、GPU 和網絡利用率方面的不一樣性能結果。

深度學習任務既是網絡密集型又是 GPU 密集型，所以對編排進行適當優化很是重要。易發的不平衡會致使閒置計算容量，這對於 GPU 節點來講成本過高昂了（與 CPU 相比）。咱們將分享咱們的經驗，但願可提供有用的洞察，幫助從機器學習任務中得到更好的經濟效益。

推介會：SIG Cluster 生命週期

螞蟻金服高級研發工程師徐迪

Cloud Software Architect, Intel Alexander Kanevskiy

議題簡介

Sig-Cluster-Lifecycle Intro羣集生命週期SIG是一個專一於羣集部署和升級的特別興趣小組。咱們的SIG正在努力改善用戶體驗，以引導符合最佳實踐的最小可行Kubernetes集羣。使用咱們的主要安裝工具kubeadm，能夠很好地管理簡化的安裝和升級過程。咱們最近推出了一個名爲Cluster API的新Kubernetes對象，它將聲明式Kubernetes風格的API引入羣集建立，配置和管理。在本次介紹會上，咱們將介紹SIG的使命陳述，審覈最新更新，並討論咱們的路線圖。還介紹了一些新的生命週期項目。很是歡迎您加入咱們的SIG併爲其作出貢獻。

安全沙箱是否已生產就緒？Kata 容器、gVisor 等

螞蟻金服資深技術專家王旭

螞蟻金服技術專家李福攀

議題簡介

在 KubeCon NA 2018 上，咱們對 Kata 容器和 gVisor 進行了定量比較，當時咱們展現了對 Kata 而言合理的 CPU/網絡性能、文件系統存儲的性能損失、Kata 的內存消耗以及 gVisor 的系統調用開銷等。

活動結束後，Kata 容器發佈了版本 1.5，支持輕量級管理程序（Nemu 和 FireCracker）。當時咱們還介紹了用於文件系統共享的 virtio-fs，它能夠提供更好的 POSIX 兼容性和性能。Virtio-fs 可以與 shimv2 進行無縫的容器化集成，看似可以在 2019 年爲 Kubernetes 提供更出色的生產就緒型安全沙箱支持。

在本次演講中，咱們將展現使用更新的測試套件對新推出的技術進行的基準測試，並幫助用戶瞭解它們是否已生產就緒。

SOFAStack Cloud Native Workshop

Service Mesh 將服務間通訊能力下沉到基礎設施，讓應用解耦並輕量化。但 Service Mesh 自己的複雜度依然存在，如何輕鬆的實踐 Service Mesh 技術？在活動現場，咱們將帶你感覺 CloudMesh 經過將 Service Mesh 託管在雲上，助力輕鬆實踐 Service Mesh 技術。

做爲雲原生技術前進方向之一，Serverless 架構讓您進一步提升資源利用率，更專一於業務研發。本次您能夠體驗到快速建立 Serveless 應用、根據業務請求秒級 0-1-N 自動伸縮、經過日誌查看器快速排錯、按時間觸發應用等產品新功能。

微服務架構下，分佈式事務問題是一個業界難題。此次，您能夠親身體驗如何使用開源分佈式事務框架 Seata 的 AT 模式、TCC 模式解決業務數據的最終一致性問題。

具體日程可點擊這裏查看。