2019年天貓雙11成交額,2684億!核心系統100%上雲!全球最大流量洪峯,阿里雲扛住了。
網上輕鬆購物體驗其實是背後複雜的技術組成的,這是一個簡化的通用電商系統架構,由不少產品和業務組件組成。數據庫
這些業務組件核心系統今年100%上雲,底層承載的技術就是阿里雲的計算,存儲,網絡,數據庫等等一系列產品和解決方案。編程
由於處理量很是巨大,這些業務產品、組件和模塊之間會採用分佈式部署方式,產品與產品、組件與組件、模塊和模塊之間會存在海量的通訊要求,承載這個通訊要求的技術平臺就是阿里雲網絡的飛天洛神平臺。跨域
阿里雲的技術平臺叫飛天操做體系,其目標是將一個數據中心,乃至遍及全球的多個數據中心變成一臺計算機,對內管理數據中心的服務器和各類物理資源和設施,對外統一的提供公共服務和對應的編程接口。服務器
飛天操做系統的內核提供最基礎的系統服務,是對基礎資源的虛擬化,核心是計算、存儲和網絡資源的虛擬化,其中虛擬網絡服務(如虛擬專有網絡VPC,SDN控制器,負載均衡網元等)是由洛神平臺提供,總結一句話,洛神是阿里雲飛天操系統內核的核心組件,提供了雲計算網絡的所有功能。網絡
洛神伴隨着阿里雲飛天系統誕生,到目前已經有10年的歷史,支撐了阿里雲20個region,數百萬級別虛擬機之間的如絲般順滑的訪問體驗,這些與洛神10年來的技術沉澱息息相關。架構
1. 全自研負載均衡
目前阿里雲網絡有業界最豐富的產品,從使用場景角度分爲雲上網絡、跨地域網絡、混合雲網絡和智能網絡。運維
這些豐富產品基於洛神平臺開發,核心業務代碼全自研,到目前爲止,已經達到數百萬行,不論是底層的軟件系統,仍是硬件設備形態,其技術方案、業務邏輯徹底自主設計和開發,因此阿里雲的虛擬交換機也稱爲AVS(Ali Virtual Switch),從轉發表項設計,至報文處理,都不一樣於業界開源的OVS(Open Virtual Switch)。分佈式
2. 軟件定義網絡性能
從洛神誕生的第一天起,阿里雲的網絡架構遵循軟件定義網絡的理念,管控和轉發分離,網元只負責數據轉發,管理配置以及表項由SDN網絡控制器生成和下發。
轉發網元不論是軟件方式,仍是硬件方式,都支持可編程,全部業務邏輯都是經過軟件代碼實現,兼容SDN控制器之間自定義通道通訊協議,軟硬件一體化,兼容可擴展性。
3. 海量規模
阿里雲目前有數百萬的公有云租戶,還有阿里集團這種超大規模的用戶,經過海量的虛擬機協同完成豐富的業務。量變引發質變,洛神平臺要支持這些海量租戶,海量虛擬機之間的網絡通訊,網元的管理,表項下發性能,數據轉發性能不是小規模網絡能夠相比擬的。目前實際運行環境,洛神已經支持單租戶超過10W+虛擬機實例、單租戶100G+公網帶寬、單租戶20T+混合雲帶寬。
「不是任何一朵雲都能撐得住雙11」,阿里集團核心系統首次100%運行在公共雲上,54.4萬筆/秒的訂單峯值,970PB的單日數據處理量是承載在虛擬化的分佈式系統上的,分佈式節點之間的通訊,依賴的就是底層的雲網絡基礎設施,就是洛神平臺提供的能力。
雙11對雲網絡,對雲網絡的技術平臺洛神有哪些具體的挑戰,洛神如何支撐的呢,讓咱們一一揭祕。
1. 超大規模
阿里集團核心業務全面上雲,隨之而來的最大的挑戰超大規模。2018年雙11雲上單個VPC的規模已經接近10w,今年還須要成倍增長,達到單VPC 30w的規模,業界有如此規模的用戶屈指可數,基本集中在個別超大規模互聯網公司,但不論是否自身就是公有云提供商,都沒有將本身的核心業務部署在公有云上,因此單個VPC支撐如此規模的虛擬化實例,沒有先例。同時在轉發帶寬的要求上,去年整個雲上公網和跨域出口流量5Tbps左右,今年這個流量增加到了數十Tbps。
網絡設備邏輯上包括管控和數據轉發兩個組成部分,首先在管控層面,集中式的SDN控制器使用傳統方式,轉發表項的下發性能會很低,結果會致使虛擬實例的上線速度很慢,影響業務開通效率,包括業務切換效率。洛神的管控系統採用集羣和分層架構,集中能力提高的同時,將大量虛擬實例上線的處理下層,大大提高管控配置和表項的處理性能。
數據轉發層面,洛神提供了軟硬件一體化的技術架構,虛擬交換機在傳統DPDK架構基礎上進行了升級,支持可編程硬件實現的快速轉發。
基於可編程硬件的虛擬交換機相對於傳統軟件虛擬交換機,轉發性能提高達到10倍左右,時延下降1倍以上。公網和跨域帶寬的快速增長,也對DPDK虛擬網關的性能提出了極大挑戰,一方面是設備規模的增長,致使管理複雜度,供應成本的增長,另外CPU單核能力的約束,沒法支撐某些突發和大帶寬單流的場景,影響其它正常流量的通訊。
在虛擬網關上,經過技術架構的升級,支持軟硬件一體化的硬件網關,業務邏輯經過可編程的P4語言實現,對外接口兼容軟件虛擬化網關,實現統一的擴展性。可編程硬件網關相對於傳統X86軟件架構,轉發性能提高數十倍,同時有效避免了大帶寬單流對單個CPU core的衝擊,整個雙11期間的流量洪峯在整個洛神軟硬件一體化架構下,呈現出來的是「涓涓細流」。
2. 穩、穩、穩
阿里集團核心業務100%運行在公有云上,穩定性是第一要素,容不得半點差錯,不只僅單個節點的穩定性要作到極致,整個網絡架構,解決方案層面也要保證絕對的穩定,作到多重防禦,萬無一失。洛神平臺,架構層面保證網絡通訊的穩定性,業務按AZ(Available Zone)部署,公網和跨域訪問的網關在可用區內集羣部署,避免單點故障的影響,同時在可用區之間互爲備份,避免可用區的故障。
3. 複雜流量模型
整個阿里巴巴經濟體的業務系統很是複雜,不只僅包括電商購物系統,還包括螞蟻支付系統,還有大數據分析系統,菜鳥物流體系等等,不一樣的系統對網絡通訊需求的要求也不相同,業務流量的優先級也不同,有些對延時敏感,有些對帶寬要求高,有些對丟包敏感,這些紛繁複雜的業務如何在統一的底層雲網絡中承載,對雲網絡的技術平臺洛神提出了區別普通公有云租戶的不一樣挑戰。以阿里集團在線業務和離線業務爲例,離線業務主要就、是大數據,熟悉的人可能都比較清楚,大數據的出名的流量大戶,常常會有一些突發的流量將物理網絡的帶寬佔滿,致使丟包,而在線業務通常流量不大,但對時延和丟包敏感。這就要求雲網絡支持流量等級區分,擁塞是優先丟棄低優先級的流量,保證離線和在線業務的和諧共處。
雲網絡洛神平臺支持不一樣業務的QoS,對於大帶寬、丟包非敏感業務,設置通訊報文低優先級,突發流量不會致使高優先級報文被丟棄,複雜的流量模型也能「和平共處」。
4. 高效運維
物理規律決定了沒有100%可靠的網絡,一方面阿里雲網絡追求最高的可靠性,一方面遵循沒有永遠不失效的單點邏輯這個規律,故障必定會發生,沒法避免,但須要有故障發生時快速恢復,快速定位的能力,在雙11以前的各類壓測和故障演練之中,洛神平臺不斷的錘鍊網絡運維能力,作到故障快速監控,快速恢復,快速定位。阿里雲網絡洛神平臺的運維,運營平臺,內部叫齊天系統,這是一個分佈式,大數據智能化運維繫統,經過大數據,AI分析能力,集合阿里雲海量數據,實現故障的快速定位和逃逸。
經過底層網絡網絡和虛擬網絡數據流,日誌,設備狀態等等數據信息,經過以blink爲底座的大數據分析平臺,在業務方感知故障以前,快速判斷網絡的監控狀態,以及快速識別故障的根因,實現故障的自動逃逸。同時每種典型故障,都錄入到平常故障演練中,作到網絡運維的真正高效,隨時可用。智能的網絡,也是阿里雲洛神平臺保障雙11業務的一個利器,爲雙11的平穩保駕護航。
洛神還在不停的進步,從最初的洛神1.0 DPDK網元演進洛神2.0軟硬件一體化網元,網絡能力有了質的提高,支撐了阿里集團核心業務的100%上雲,將來在彈性、開放能力上會更進一步,提供給用戶更加美好的體驗。
本文做者:瑄珉
本文爲雲棲社區原創內容,未經容許不得轉載。