九年雙11雲化架構演進和升級，打造更加完美的雙11

時間 2019-11-21

原文原文鏈接

摘要： 12月13-14日，由雲棲社區與阿里巴巴技術協會共同主辦的《2017阿里巴巴雙11技術十二講》順利結束，集中爲你們分享了2017雙11背後的黑科技。本文是《阿里巴巴雲化架構創新之路》演講整理，主要講解了雙11的技術挑戰與突破、雲化架構演進的背景、統一調度和混部的挑戰、Pouch容器和容器化的進展、雙11的將來技術發展路線。git

12月13-14日，由雲棲社區與阿里巴巴技術協會共同主辦的《2017阿里巴巴雙11技術十二講》順利結束，集中爲你們分享了2017雙11背後的黑科技。本文是《阿里巴巴雲化架構創新之路》演講整理，主要講解了雙11的技術挑戰與突破、雲化架構演進的背景、統一調度和混部的挑戰、Pouch容器和容器化的進展、雙11的將來技術發展路線。內容以下。github

分享嘉賓：算法

叔同（丁宇），阿里巴巴資深技術專家，8次參與雙11做戰，阿里高可用架構、雙11穩定性負責人，阿里容器、調度、集羣管理、運維技術負責人。編程

叔同：
雙11推進了阿里技術的進步，它有哪些挑戰？
互聯網級規模，天天有數億人在阿里網站上進行交易；
企業級複雜度，每完成一筆交易都須要數百個系統的服務支撐；
金融級的穩定性，每一筆交易都必須保證其完整性和正確性；
雙11存在數十倍的業務峯值，要求系統絕對穩定。
阿里巴巴9年雙11經歷下來，交易額增加了280倍、交易峯值增加800多倍、系統數呈現爆發式增加。系統在支撐雙11過程當中的複雜度和支撐難度以指數級形式上升。雙11的峯值的本質是用有限的成本最大化的提高用戶體驗和集羣吞吐能力，用合理的代價解決峯值。面對增加如何發揮規模效應，持續下降單筆交易成本以提高峯值吞吐能力，爲用戶提供絲般順滑的瀏覽和購物體驗，是極大的挑戰。緩存

隨着分佈式架構、異地多活、限流降級、全鏈路壓測等技術的突破，擴展性和穩定性問題獲得了很好的解決。系統架構伴隨9年雙11的發展一代一代向後演進，每年都有很大的提升。08年開始阿里巴巴着手系統從由集中式架構變成分佈可擴展架構，其中沉澱了大量互聯網中間件技術。13年經過異地多活的架構演進，把阿里完整的交易單元部署到全國各個城市站點，實現了地域級水平擴展。這兩種技術的疊加解決了整個雙11擴展性問題。服務器

因爲分佈式架構的演進，系統穩定性問題開始凸顯、系統複雜度急劇上升、多個系統間協同出現問題。咱們建設了限流降級、預案體系、線上管理管控體系。在2013年時作了雙11備戰的核心武器——全鏈路壓測。它能對整個系統的依賴關係裏跟雙11有關的部分進行完整的用戶級的線上大流量真實場景讀寫壓測，使系統提早經歷幾回「雙11」，驗證整個線上生產環境處理能力，及時發現問題並修復。
雲化架構的演進
因爲雙11自己峯值增加很快，當咱們作好了系統的穩定性後，發現硬件、時間、人力成本的消耗很大。成本挑戰的出現推進咱們解決IT成本的問題，即服務器資源問題。首先來看雲化架構演進背景。網絡

上圖爲阿里業務六個月的峯值數據表。表中兩個最大的峯值依次表明雙11和雙12的交易峯值，其餘較小的峯值是平常交易峯值，紅線表明平常準備系統服務器資源的處理能力。架構

在13年以前，咱們採購大量的服務器資源以支撐雙11流量高峯。高峯過去後，長時間低效運行產生很大的資源浪費，這是很是粗放的預算和資源管理模式。阿里的多種業務形態產生了多種集羣，每一個集羣之間運維體系差別較大、各個板塊沒法互用、資源總體彈性能力不足致使雙11沒法借用這些資源。每一個板塊的資源池有不一樣的buffer，每一個資源池的在線率、分配率和利用率沒法統一。咱們經過雲化架構提升總體技術效率和全局資源的彈性複用能力。例如某個不作雙11的集羣把資源貢獻出來給雙11的交易使用。因爲雲能提供雙11正須要的彈性能力，因此咱們也開始大量使用阿里雲來解決雙11成本問題，經過拉通技術體系來下降大促和平常總體成本，提出經過雲化架構來實現雙11單筆交易成本減半的目標。併發

先來梳理一下整個運維體系現狀。咱們將集羣大體分在線服務集羣、計算任務集羣、ECS集羣三類。這三種集羣上的資源管理和基礎運維、調度都是獨立的。它們有各自的調度編排能力，在線服務Sigma調度、計算任務的Fuxi調度、ECS的Cloud Open API；它們在生產資源、資源供給、分配方式上也是不一樣的。在線服務用的是容器、計算任務調度最後生產的是LXC的輕量級隔離封裝容器、雲生產的是ECS；它們在應用層上運維集羣管理也是不同的。最上層業務層跑的任務也不同。在線服務器跑的是在線業務如交易搜索廣告、有狀態的存儲。計算集羣跑的是大數據分析的任務，雲集羣跑的是各式各樣的外部客戶的任務。運維

經過技術全面雲化逐層進行重構升級，建設彈性複用的能力實現全局統一調度。在線任務和計算任務混合部署，經過統一運維部署和資源分配的標準化提升調度效率，以此來實現容量的自動交付。因此咱們須要作全面容器化，利用公有云，發揮雲的彈性能力，減少自採基礎設施的投入。經過混合雲彈性架構和一鍵建站複用阿里雲的能力，下降雙11的成本。利用阿里雲作到之前一年的資源持有時間縮減到只需1-2個月。
統一調度體系
始於2011年建設的Sigma是服務阿里巴巴在線業務的調度系統，圍繞Sigma有一整套以調度爲中心的集羣管理體系。

Sigma是有Alikenel、SigmaSlave、SigmaMaster三層大腦聯動合做，Alikenel部署在每一臺NC上，對內核進行加強，在資源分配、時間片分配上進行靈活的按優先級和策略調整，對任務的時延，任務時間片的搶佔、不合理搶佔的驅逐都能經過上層的規則配置自行決策。SigmaSlave能夠在本機上進行CPU的分配、應急場景的處理。經過本機Slave對時延敏感任務快速作出決策和響應，避免因全局決策處理時間長帶來的業務損失。SigmaMaster是一個最強的大腦，它能夠統攬全局，爲大量物理機的容器部署進行資源調度分配和算法優化決策。

整個架構是面向終態的設計理念，請求進來後把數據存儲到持久化存儲，調度器識別調度需求分配資源。系統總體的協調性和最終一致性是很是好的。咱們在2011年開始作調度系統，2016年用Go語言重寫，2017年兼容了kubernetes API，但願和開源社區共同建設和發展。

發揮統一調度，集中管理的優點，釋放了規模效益下的一些紅利。在線服務的調度和計算任務調度下有各類業務形態，它們在一層調度上進一步細分紅二層調度，經過合併資源池提高利用率和分配率，合併buffer進行空間維度的優化實現全局打通。全局打通後進行彈性分時複用、時間維度的優化，共節省超過5%的資源。因爲基數大，這個優化效果是很是可觀的。

阿里巴巴在2014年開始推進混部架構，目前已在阿里巴巴內部大規模部署。在線服務屬於長生命週期、規則策略複雜性高、時延敏感類任務。而計算任務生命週期短、調度要求大併發高吞吐、任務有不一樣的優先級、對時延不敏感。基於這兩種調度的本質訴求的不一樣，因此咱們在混合部署的架構上把兩種調度並行處理，即一臺NC物理機上能夠既有Sigma調度又有Fuxi調度。Sigma調度是經過SigmaAgent調用OCI標準的RunC 、RunV、 RunLXC 三種標準來啓動Pouch容器。Fuxi也在這臺NC物理機上搶佔資源，啓動本身的計算任務。全部在線任務都在Pouch容器上，它負責把服務器資源進行分配切割經過調度把在線任務放進去，離線任務填入其空白區，保證物理機資源利用達到飽和，這樣就完成了兩種任務的混合部署。

混部的關鍵技術
內核資源隔離上的關鍵技術
在CPU HT 資源隔離上，作了Noise Clean內核特性，解決在/離線超線程資源爭搶問題。
在CPU調度隔離上，CFS基礎上增長Task Preempt特性，提升在線任務調度優先級。
在CPU 緩存隔離上，經過CAT，實如今、離線三級緩存(LLC)通道隔離(Broadwell及以上)。
在內存隔離上，擁有CGroup隔離/OOM優先級；Bandwidth Control減小離線配額實現帶寬隔離。
在內存彈性上，在內存不增長的狀況下，提升混部效果，在線閒置時離線突破memcg limit；須要內存時，離線及時釋放。
在網絡QoS隔離上，管控打標爲金牌、在線打標爲銀牌、離線打標爲銅牌，分級保障帶寬。
在線集羣管理上的關鍵技術
對應用的內存、CPU、網絡、磁盤和網絡I/O容量進行畫像，知道它的特徵、資源規格是什麼，不一樣的時間對資源真實使用狀況如何，而後對總體規格和時間進行相關性分析，進行總體調度優化。
親和互斥和任務優先級的分配，哪一種應用放在一塊兒使總體計算能力比較少、吞吐能力比較高，這是存在必定親和性。
不一樣的場景有不一樣的策略，雙11的策略是穩定優先，穩定性優先表明採用平鋪策略，把全部的資源用盡，讓資源層所有達到最低水位。平常場景須要利用率優先，「利用率優先」指讓已經用掉的資源達到最高水位，空出大量完整資源作規模化的事。
應用作到自動收縮，分時複用。
整個站點的快速擴容縮容，彈性內存技術。
計算任務調度+ODPS上的關鍵技術
有彈性內存分時複用、動態內存超賣、無損降級與有損降級三個關鍵混部技術。動態內存超賣指內存是能夠超賣的，若是有在線任務要用，就快速歸還。有損降級和無損降級的策略指的是對影響在可接受範圍內的波動干擾進行無損降級，不增長新任務，慢慢把它降下來，對影響大的干擾直接殺掉任務屬於有損降級。利用零層管控，管理每臺NC上的在線任務和離線任務之間的關係。

混合部署指將計算任務引入在線服務集羣以提高平常資源效率。把離線任務引入後，CPU平均利用率從10%上升到40%以上，同時敏感類應用的延遲影響時間小於5%，屬於徹底可接受範圍。目前咱們整個混部集羣已達到數千臺的規模，通過了交易核心鏈路雙11大促的驗證。這項優化能夠爲平常節省超過30%的服務器。因爲涉及到硬件的迭代和網絡的迭代，須要一個很長的準備週期，因此咱們預計明年會擴大10倍的部署規模。

經過分時複用，達到進一步提高資源效率的效果。上圖中的曲線是咱們某個應用的流量曲線。它是很是有規律的,左邊表明晚上波谷期，右邊表明白天處於波峯期。正常的混部指佔用圖中藍色陰影部分的資源把利用率提升到40%，彈性分時複用技術是指對應用畫像找到應用流量波谷期，對應用縮容，大量釋放內存和CPU，調度更多計算任務。經過這項技術，把平均CPU利用率提高到60%以上。

在雙11時，如何利用計算任務集羣混合部署助力雙11下降成本？咱們把計算任務集羣分紅三種狀態：徹底沒有在線服務的狀態、在線服務和計算任務共同存在的過渡狀態、雙11時在線服務佔主流計算任務短期降級狀態。集羣混合部署後資源分配三七開，計算任務能夠搶佔在線任務分配的資源；在壓測和大促非峯值時資源分配五五開；在大促峯值到來時，計算任務短期降級，空閒資源支持支撐雙11峯值。經過一小時快速建站拉起完整交易站點，大幅度下降了雙11的單筆交易成本。
Pouch容器和容器化的進展
全面容器化是提高運維能力、拉通運維差別的關鍵的技術。首先介紹一下阿里巴巴內部容器技術產品Pouch。它從2011年開始建設和上線，基於LXC，在2015年初開始吸取Docker鏡像功能和不少標準。阿里巴巴的容器很是有特色，它結合了阿里內核，大幅度提升了它的隔離性，目前以百萬級規模部署於阿里集團內部。

再來了解一下Pouch的發展路線。之前用的是虛擬機的虛擬化技術，虛擬化技術過渡到容器技術面臨着不少運維體系的挑戰。運維體系的遷移是一個很大的技術成本。咱們作到了阿里內部運維和應用視角，有獨立IP，可以ssh登陸，有獨立的文件系統和資源隔離使用量可見性。2015年之後，阿里巴巴引入Docker 標準，造成了新的一套容器Pouch並集成整個運維體系。

Pouch的隔離性很是好，是富容器，能夠登陸容器，看到容器內進程本身佔的資源量，有多少進程，進程掛了容器是不會掛的，能夠運行不少的進程。兼容性很好，舊版本和之後的版本都支持，對利舊頗有幫助。同時他通過了百萬級容器部署的規模化驗證，咱們研發了一套P2P鏡像分發機制，大幅度提高分發效率。同時兼容了業界更多標準，推進標準的建設，支持RunC 、RunV 、RunLXC等標準。

Pouch的結構是比較清晰的，Pouchd如何跟kubelet、swarm、Sigma交互。在存儲上跟業界一塊兒建設了CSI標準。支持分佈式存儲如ceph、pangu。在網絡上使用lxcfs加強隔離性，支持多種標準。

目前Pouch化覆蓋了阿里的大部分BU，2017年達到百萬級部署，在線業務達到100%容器化，計算任務也開始容器化，它拉平了異構平臺的運維成本。覆蓋運行模式，多種編程語言，DevOps體系。Pouch覆蓋了阿里幾乎全部業務板塊如螞蟻、交易、中間件等等。

Pouch於2017年10月10號宣佈開源，11月19日正式開源，把代碼放到https://github.com/alibaba/po...，計劃在2018年03月發佈第一個大版本。咱們但願經過Pouch的開源推進容器領域的發展和標準的成熟，給業界提供差別化有競爭力的技術選擇。不只方便傳統IT企業利舊，老的基礎設施也一樣可以享受容器化帶來的運維層的好處和優點，並且方便新的IT企業享受規模化穩定性和多標準兼容性帶來的優點。

在存儲計算分離上，因爲有狀態任務須要複製狀態，會嚴重影響分時複用運維自動化程度和調度效率。咱們在雲化過程當中實現了存儲計算分離技術。因爲計算集羣和在線服務不在一個機房，計算任務的數據須要先緩存到在線業務的集羣上，因此咱們搭了一個緩存橋頭堡，而後進行計算。隨着機房結構的調整和網絡的優化，咱們開始對在線計算同時進行存儲計算分離。目前已經實現去橋頭堡方案，不受網絡長傳帶寬的限制，減小了大集羣跨網絡核心對穿流量，提高了調度的靈活性。存儲計算分離技術不只可使用阿里盤古技術，同時也兼容業界這一套容器上的存儲標準，這也是阿里實現雲化架構的很是關鍵的技術。在網絡架構的升級上，咱們大規模使用25G網絡，在公有云上使用VPC，overlay能雲上、雲下和數據集羣整個網絡打通，這也是阿里大規模混合部署的前提。
雲化架構和雙11將來技術路線

這是阿里混合雲彈性架構，是基於編排的一套技術體系，也是面向動態的架構。它能夠分鐘級進行單元的擴容和縮容，快速在雲上或大數據集羣上創建交易單元，實現秒級巡檢，確保交付的可靠性。這套體系能持續下降資源持有時間和服務器的非ONLINE時間，下降損耗時間，提高了彈性的效率。雙11超過60%的峯值流量都跑在阿里雲上，全面使用阿里雲彈性基礎設施，8個小時快速構建全球最大混合雲。

這是雙11雲化架構運維體系介紹。將資源分爲在線任務集羣、計算任務集羣和ECS集羣。資源管理，單機運維、情況管理，命令通道、監控報警這類基礎運維體系已經打通。在雙11場景中，咱們會在雲上劃出一個獨立的區域與其餘場景互通。在互通區域，Sigma調度能夠到計算集羣服務器裏申請資源，生產Pouch容器，也能夠到cloud open API去申請ECS，生產出容器的資源。在平常的場景中Fuxi能夠到sigma裏申請資源，建立須要的容器。在雙11場景中，利用應用和規模化運維在容器上構建大量在線服務，包括業務層的混合部署，每一個集羣都有online service和有狀態服務及大數據分析。阿里雲的獨佔集羣也部署了在線服務和有狀態的數據服務，作到了datacenter as a computer，多個數據中心像一臺計算機同樣來管理，實現跨多個不一樣的平臺來調度業務的發展所須要的資源。構建了混合雲用極低的成本拿到服務器，解決有沒有的問題。先有服務器規模，再經過分時複用和混合部署來大幅度提高資源利用率。真正實現了彈性資源平滑複用任務靈活混合部署，用最少的服務器最短的時間和用最優效率完成業務容量目標。經過這一套雲化架構，咱們在雙11實現了新增IT成本下降50%，使平常IT成本降低30%，帶來了集羣管理和調度領域的技術價值爆發，也說明容器、編排調度技術的流行是一種必然。

後期咱們會經過阿里雲平臺把內部儲備的技術對外輸出。這套技術是內部調度容器運維領域的優點技術，具有調度、編排、應用管理、監控、混合雲的快上快下構建、彈性伸縮、混合部署的能力，同時兼容Kubernetes API，提供企業級容器應用管理能力，提升企業IT效率，進而提升企業競爭力和創新效率。混合部署和自動化混合雲構建技術通過雙11規模驗證，成爲一個很是成熟穩定的技術體系。在雲上，咱們和ACS 、EDAS 、EMR合做，提升了產品的完整性。

將來雲化架構和雙11有哪些技術的發展方向？在雙11場景下利用技術解決了大促成本的問題，找到了一個正確的方向，經過長期建設和發展，有更大的優化效率的提高。將來咱們但願經過雲化架構提高阿里雲IDC資源利用率、經過擴大調度規模和混部形態擴大效益。繼續推動面向終態的體系結構和運維體系的提高，資源持有時間優化30%以上，持續下降大促的交易成本。對雙11自己，成本的問題已經獲得了比較好的優化，將來着手於效率的提高，減小時間和人力成本，經過雙11技術變量的採集、分析、預測微觀視角的剖析和數據算法驅動，用智能決策進行處理。經過數據化、智能化、人與機器智能協同指揮，提高雙11準備和做戰效率，減小人力投入。經過加速基礎技術的迭代，在體驗、效率、成本和最大吞吐能力上找到新的平衡點，爲整個行業和消費者帶來一個更加完美的雙11。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。