規模化落地雲原生，阿里雲即將重磅亮相 KubeCon China

時間 2019-12-13

標籤規模落地原生阿里即將重磅亮相 kubecon china 欄目阿里巴巴简体版

原文原文鏈接

2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主辦的雲原生技術大會 KubeCon + CloudNativeCon + Open Source Summit（上海）即將在中國上海盛裝啓幕。api

繼 2018 年 KubeCon 首次成功登錄中國，本屆 KubeCon 將吸引來自全世界數千名技術人員將會參加這次盛會，參與CNCF 所有項目和話題的深度探討和案例分析，聆聽 CNCF 項目的運維者和最終用戶的分享。本屆 KubeCon + CloudNativeCon + Open Source Summit 大會項目委員會由 75 名專家組成，審閱 KubeCon + CloudNativeCon 的 618 項提案，在本次 KubeCon China 2019 上，阿里巴巴共有 26 個技術演講入選。安全

在本次 KubeCon 上，阿里雲智能容器平臺負責人丁宇（叔同）、 CNCF TOC、etcd 項目做者、阿里雲容器平臺資深技術專家李響，CNCF 大使、Kubernetes 項目維護者、阿里雲高級技術專家張磊等衆多雲原生技術大咖都會悉數到場並作技術分享，同時會爲您帶來包括開源 Virtual Cluster 強多租戶設計、 OpenKruise 開源項目、開放雲原生應用中心（Cloud Native App Hub）等衆多雲原生先進技術的最新動態與進展。咱們很是期待您可以在 KubeCon China 上與阿里容器平臺團隊見面、進行交流或者開展技術合做。服務器

KubeCon + CloudNativeCon 阿里巴巴專場頁面上線

全面展現阿里雲在本次 KuebCon 演講議題及雲原生生態成果的「KubeCon + CloudNativeCon 阿里巴巴專場頁面」已經正式上線。在這裏，您能夠掌握阿里在 KubeCon 上的演講議題、追蹤《CNCF x Alibaba 雲原生技術公開課》課程更新、瞭解阿里雲原生產品動態、6 月 24 日動手沙龍活動安排，點擊連接或文末「閱讀原文」直接進入專場頁面。網絡

專場頁面連接：https://yq.aliyun.com/promotion/833架構

咱們推薦您重點關注以下演講：運維

一、Kubernetes 正當時，雲原生將來可期

演講人微服務

阿里雲智能容器平臺負責人丁宇（叔同）工具

議題簡介
做爲雲原生應用的實踐者，阿里雲不只支撐了流量巨大的雙十一，並且也承擔阿里巴巴經濟體大規模平常業務。本演講將分享阿里雲對 Kubernetes 技術取得成功思考，同時展望雲原生將來的發展趨勢。性能

二、Keynote：阿里巴巴規模的雲原生

演講人學習

阿里雲容器平臺資深技術專家李響

議題簡介
阿里雲已經成功地規模化落地雲原生，本次演講旨在將具體的經驗分享給各位觀衆，涉及規模擴展、可靠性、開發效率、遷移策略等方面，並探討針對大規模場景進行優化。Cloud native works for Alibaba. Cloud native works for (almost) everyone.

三、阿里巴巴使用高可用性+可擴展 Prometheus 和 Thanos

演講人
阿里雲容器平臺高級技術專家秦國安(炎烈)
阿里雲容器平臺高級開發工程師李濤(呂風)

議題簡介
阿里巴巴集團正在使用 Kubernetes 來支持全球最大的電子商務業務。在可用性和可擴展性方面，如何提供可靠的細粒度監控和警報服務確實是一項挑戰。本次演講將分享基於開源項目 Prometheus 和 Thanos 開發具備高可用性和可擴展性的細粒度監控系統的經驗。該系統主要支持阿里巴巴的集羣管理系統，有 800 萬 TPS 和 10K 請求，議題將討論:

1）如何使用 Prometheus 支持大規模場景？
2）如何使用 Thanos 解決多個 Prometheus 實例致使的數據查詢問題？
3）咱們從 Prometheus 和 Thanos 的配置中學到的經驗教訓，例如目標發現和記錄規則管理以及警報規則。

四、使用 Istio 管理跨區域和跨集羣的微服務

演講人
阿里雲容器平臺高級技術專家王夕寧（貝叮）
Backend Architect UniCareer Xiaozhong Liu

議題簡介
職優你是一個電子學習職業發展平臺，旨在知足全球學生和在職專業人士的各類需求，併爲來自世界多個地區的用戶提供服務。這些應用部署於在阿里雲的不一樣區域上的多個 Kubernetes 集羣上，以減小不一樣區域內的服務訪問延遲。爲了有效地管理這些微服務，須要一個多集羣服務網格來控制微服務流量、保證服務到服務通訊等。

Istio 是一個創建在 Kubernertes 上的服務網格，可支持多種拓撲來管理多個 Kubernetes 集羣上的應用流量統一管理。在整個案例研究中，咱們將使用 Istio 服務網格分享多集羣流量管理相關的部署設計和技術，並根據底層平臺的需求和限制討論一些挑戰和相應的實踐。

五、經過託管 CPU 和 GPU 工做負載，實現資源的高效利用

演講人
阿里雲容器平臺高級技術專家何劍
螞蟻金服平臺數據技術系統部技術專家岑鵬浩(庫泊)

議題簡介
本次演講主要介紹如何將 AI training 任務和長服務在 Kubernetes 集羣之上混部。主要目的是經過混部各類 workload 提升資源利用率，從而節省資源。咱們會從各個不一樣的維度包括 Qos class, cgroup, scheduling 等等來描述咱們如何實現混部，以及如何評估利用率。過去幾個月中，咱們構建了一個幾百節點的 GPU 和 CPU 混部集羣，咱們會介紹在生產集羣中混合部署長服務和AI批處理任務的最佳實踐。

六、1-5-10：如何快速恢復大規模容器故障

演講人
阿里雲容器平臺技術專家熊歡（寧拙）

議題簡介
在雲時代，企業中基於容器的應用激增，因爲人工操做、硬件故障等，發生容器故障的可能性大幅增長。所以，如何在不增長資源投入的狀況下保證大規模容器的可靠性成爲雲平臺面臨的一個巨大挑戰。阿里巴巴運行着數百萬個容器，爲恢復容器相關故障提出了 1-5-10 理論：MTTD（平均檢測時間）爲 1 分鐘，MTTI（平均識別時間）爲 5 分鐘，MTTR（平均解決時間）爲 10 分鐘。在本次會議中，咱們將討論如何利用 1-5-10 提升大規模容器的可靠性：

1）如何在本地創建一個有效代理，在 1 分鐘內檢測到問題；
2）如何藉助專家知識庫智能診斷容器問題；
3）如何以故障驅動型方式自動恢復容器問題。

七、瞭解 Kubernetes Master 的可擴展性和性能

演講人
阿里雲容器平臺高級軟件工程師陳星宇（宇慕）
阿里雲容器平臺高級技術專家曾凡鬆（逐靈）

議題簡介
目前，Kubernetes 的規模限制是 5k 節點，所以若是您想用它來管理像 10k 節點這樣的 Web 規模集羣，您可能沒法實現。您是否想知道 Kubernetes 管理超過 5k節點的性能瓶頸是什麼？當你想將其可擴展性擴展到一個新的水平時，是哪一個組件阻礙？ etcd，apiserver 或者 scheduler？瞭解這些問題是運營大型 Kubernetes 集羣的關鍵。在阿里巴巴，咱們遇到了不少問題，好比隨着集羣變得愈來愈大，pod 建立變得很是慢。在本次演講中，咱們想分享如何進行各類基準測試和分析，並找到瓶頸，以及如何調整控制組件，並實現了超過 100 倍的性能提高。

八、Intro:containerd

演講人
阿里雲容器平臺高級開發工程師傅偉（聿歌）
Google 軟件工程師劉瀾濤

議題簡介
本次演講將從 containerd 架構設計理念出發，向聽衆分享如何使用插件化能力來加強 containerd，提供不一樣鏡像存儲以及強隔離容器運行時的解決方案。同時，還會向聽衆展現 containerd 同 gVisor, Firecracker 容器運行時集成的演示案例，會讓聽衆更好地理解 containerd 最佳集成方式。

九、阿里巴巴利用 K8S、Kata 容器和裸機雲構建無服務器

演講人
阿里雲容器平臺技術專家張翼飛（悟鵬）
阿里雲容器平臺高級開發工程師唐華敏（華敏）

議題簡介
無服務器計算是當前流行的計算形式，極大下降了開發人員部署、管理、運行應用的成本。在無服務器平臺中，不一樣用戶的服務一般混部在同一個節點上，爲此，須要在多租戶場景下提供可信的運行環境。在阿里巴巴，咱們使用 Kata Containers 做爲安全容器運行時，在存儲、網絡、硬件等層面確保多租硬隔離和服務運行時的性能。在本次分享中，將根據咱們的生產實踐，詳細討論多租場景下如何實現硬多租和服務運行的高性能。

十、阿里巴巴數字推進的開源社區探索

演講人
阿里巴巴開源治理辦公室高級社區經理趙生宇（笙雨）

議題簡介
開源社區的運營一直是開源軟件開發中的一個痛點，尤爲是對於由純開發者主導的社區，如何有效的管理開源社區、發現社區中的活躍貢獻者、經過數據發現社區管理中存在的問題等，都是亟待解決的問題。本次演講的內容將包括：

1）如何評判開發者在社區中的我的活躍度？
2）如何評判開源社區的總體活躍度？
3）在這些模型下從當前世界上的頂級開源項目分析中能夠看到什麼、得到什麼樣的洞見？
4）社區管理工具在開源社區中應該扮演怎樣的角色？
5）基於上述內容，阿里作了哪些嘗試，收穫了哪些結果？

十一、阿里巴巴：電商巨頭向雲原生演進的經驗與教訓

演講人
阿里雲容器平臺高級技術專家張磊
容器平臺高級開發工程師王思宇（酒祝）

議題簡介
將像阿里巴巴這樣的全球電子商務巨頭遷移到雲原平生臺絕非易事，在本次演講中，咱們將從技術和社區的角度分享咱們去年工做得出的經驗教訓，包括：

1）阿里向雲原生技術遷移有哪些主要障礙？
2）阿里的主要技術債務是什麼？咱們如何解決這些問題？咱們的方法有效嗎？
3）若是您的應用管理方式與組織中的 Kubernetes 徹底不一樣，該怎麼辦？
4）爲何可預測性對電子商務相當重要？Kubernetes 是否具備開箱可用的可預測性？若是沒有，爲何？如何解決這一問題（可能無解）？
5）如何驗證數千個節點集羣中的可擴展性問題？
6）規模龐大的團隊可否與上游社區合做雙贏？

十二、Intro: Dragonfly

演講人
阿里雲應用運維平臺技術專家胡做政（正希）
阿里雲應用運維平臺高級開發工程師張勁（太雲）

議題簡介
隨着容器技術在工業中的應用愈來愈普遍，如何安全高效地分發映像是工程師們所面臨的新挑戰。蜻蜓項目是基於開源智能 P2P 的映像和文件分發系統。該項目旨在解決雲原生場景中的全部分發問題。目前，蜻蜓項目專一於如下方面：

簡單：面向用戶的明肯定義的 API (HTTP)，對全部容器引擎都無侵入性
高效：CDN 支持、基於 P2P 的文件分發以節省企業帶寬
智能：主機檢測實現主機層面的速度限制、智能的流量控制
安全：數據塊傳輸加密，HTTPS 鏈接支持

在本演講中，咱們將重點介紹經過蜻蜓分發容器映像。咱們將回顧組織面臨的挑戰，包括大規模分發、安全傳輸、帶寬成本，並提供解決方案。本次演講將討論實際用例。

1三、再也不混亂：大規模 Kubernetes 審計和檢查

演講人
阿里雲容器平臺技術專家陳杰
螞蟻金服高級開發工程師馬金晶

議題簡介
衆所周知，準確的異常發現和快速的問題分析是保證 Kubernetes 集羣可用性和穩定性的關鍵所在。但在整個 Kubernetes 項目中，有着不可勝數的監控指標數據。僅以咱們的 Kubernetes 集羣爲例，咱們觀察到像這樣的監控數據每秒鐘就會產生幾千條。如何合理地利用這些複雜而大量的數據和指標，對它們有效的進行記錄和分析，變成簡單易懂的可視化展現，變成準確的告警信息，是一個很是有挑戰性的工做。

在這個演講中，咱們但願與你們分享在 Alibaba 在 Kubernetes 集羣監控、審計和巡檢方面的實踐和經驗。首先，咱們會聊一聊 Kubernetes 與穩定性相關的重要數據和指標，以及如何去理解它們。咱們會以案例的形式，具體講一講咱們如何對這些數據和指標進行整合與解析。最後，咱們會分享阿里巴巴高效、實時的對這些數據進行自動化巡檢與分析的最佳實踐。

1四、最大限度地下降在 Kubernetes 上運行深度學習的 GPU 成本

演講人
阿里雲容器平臺高級技術專家張凱
阿里雲容器平臺技術專家車漾（必嘫）

議題簡介
愈來愈多的數據科學家在 Kubernetes 上運行基於 NvidiaGPU 的深度學習任務。與此同時，他們發現集羣中的空閒 GPU 浪費了超過 40% 的成本。所以，如何能幫助提升 GPU 使用效率成爲一個重要挑戰。咱們將介紹一款基於原生 Kubernetes 的 GPU 共享解決方案:

1）如何定義 GPU 共享 API
2）如何在不更改調度程序裸機代碼的狀況下在調度 GPU 共享。
3）如何將 GPU 隔離解決方案與 Kubernetes 相集成
4）咱們還將經過演示介紹 Tensorflow 用戶如何在 Kubernetes 集羣中的同一 GPU 設備上運行不一樣的做業

1五、雲原生時代加速鏡像分發的三種方法

演講人
阿里雲容器平臺技術專家江勇(益方)

議題簡介
本次演講將分享從阿里巴巴網絡規模提升鏡像分發效率的實踐和經驗教訓。根據不一樣的場景，咱們利用不一樣的鏡像分發方法。基於 P2P 的 CNCF/Dragonfly 分發是緩解鏡像中心帶寬和減小分發時間的最直接方式。此外，CNCF/containerd 中的遠程文件系統快照程序直接遠程存儲鏡像，使容器引擎經過網絡讀取鏡像內容，幾乎不須要時間分發。你會發現第二種方式依賴於網絡穩定性，那麼如何根據鏡像內容讀請求動態加載從遠程到本地存儲的鏡像做爲權衡？最後，咱們將總結如何選擇適合鏡像分佈的方式。

1六、在 Web 級集羣中動態調整 Pod 資源限制

演講人
阿里雲容器平臺技術專家王程
阿里雲容器平臺技術專家張曉宇（衷源）

議題簡介
阿里巴巴這樣規模龐大的全球電商巨頭，其所擁有的應用數量和應用種類的都是超大規模的。如何科學合理管理這些容器的資源，一直是咱們面臨的巨大挑戰。在本次演講中，咱們將從技術和社區演進等多種維度爲你們分享咱們的實際工做經驗和技術成果。其中包括：

1）目前社區對於容器的資源管理現狀是什麼？
2）阿里這種大規模應用部署的具體挑戰是什麼？
3）咱們如何診治資源管理上的各類疑難雜症？
4）咱們如何作到資源利用率大幅提高的同時確保在線服務穩定？
5）如何平衡基於雲原生的演進和實現工做快速交付？
6）咱們的經驗能夠爲您帶來什麼幫助以及咱們如何反饋社區作到雙贏？