UCloud可支撐單可用區320,000服務器的數據中心網絡系統設計

2018年10月份,UCloud數據中心基礎網絡完成了V4新架構的落地,自此,新建的數據中心(下簡稱DC)全面升級到25G/100G網絡,極大提高了DC容量和DC間互聯的性能。V4架構下的單可用區可提供320,000個服務器接入端口,是此前V3架構的4倍。而且支持無損網絡特性,提供可用區資源的水平擴展和滾動升級能力。上線以來,新架構有力保障了UCloud福建GPU可用區開放、北京二可用區B/C/D擴容等需求。服務器

對比雲產品經過軟件的靈活性來創造豐富的用戶價值,公有云物理網絡更注重規劃的前瞻性與設計的合理性。其目標是簡單、穩定、高效。經過對上層虛擬網絡提供極度可靠的、一維尋址的邏輯連通面,來幫助實現上層產品「軟件定義一切」的使命。下文就將詳述咱們秉承這種理念設計DCN V4架構的細節。網絡

UCloud DCN V3架構設計架構

UCloud公有云以可用區(下簡稱AZ)爲最小資源池單位對外提供服務,一個可用區由一個或多個數據中心組成。UCloud數據中心基礎網絡架構(下簡稱DCN)在2016年升級到V3架構,以下圖所示:分佈式

圖:UCloud DCN V3架構性能

V3架構的設計目的:測試

全面升級到10G接入、40G互連; 完全拆掉了堆疊,避免了堆疊的種種弊端; 採用了兩級CLOS、Spine-Leaf架構,實現了必定的水平擴展能力; 數據中心核心交換機爲Spine,提供標準的BGP路由接入,TOR/Border爲Leaf;業務服務器的網關落在TOR Leaf上;DC的 Border Leaf鏈接城域網POP機房,實現DC到DC外的互通,一個DC即一個可用區。 V3解決了V2時代堆疊和MC-LAG的弊端,CLOS架構有水平擴展能力,全網統一接入方式提高了網絡部署效率。大數據

V3上線後,適逢UCloud發力建設海外節點,爲首爾、東京、華盛頓、法蘭克福等節點在短期內的快速落地,提供了有效支撐。優化

V3架構的新挑戰架構設計

近兩年,隨着UCloud業務高速發展,以及25G/100G網絡設備的成熟,業務對網絡的性能提出了全新需求,V3架構逐漸顯示出一些不足之處,主要以下:設計

性能不足 分佈式計算、實時大數據、NVMeoF等的發展,要求網絡提供更大的帶寬和更低的時延,以及服務質量保證。

以NVMeoF爲例,網絡存儲比起傳統存儲,在網絡設備轉發、傳輸、TCP/IP協議棧上有額外開銷。近來RDMA技術的成熟,極大下降了TCP/IP協議棧開銷,提高了IO性能。但咱們在實踐中發現,V3架構下的輕微擁塞,可能形成大量RMDA報文重傳,佔用至關帶寬並形成業務性能降低,這種網絡性能上的瓶頸須要突破。

容量不足 用戶常但願在一個可用區有無限的資源能夠擴容。V3的兩級CLOS架構水平擴容能力,最終受限於Spine設備端口數,一個DC網絡大概能容納的規模爲一兩萬臺服務器或一兩千個機架。而一座機房能夠有上萬甚至上十萬的機架,在V3架構下,須要作多個DC網絡,DCN之間經過POP互連互通,不但性能難以提高,並且成本巨大。

靈活性不足 全網統一接入方式,便於大規模上架佈線部署工做,確確實實提升了效率,但同時帶了靈活性降低。好比有的業務要求集羣服務器二層可達,有的業務要求經典網絡作Overlay……總之,整齊劃一的網絡規劃不能知足全部主流的業務需求。

DCN V4架構的設計與優化

爲了解決上面的問題,2017年末開始,團隊對DCN架構進行從新設計、硬件選型和標準化,並於2018年10月份完成DCN V4整套方案並在新建數據中心落地,總體架構以下:

圖:UCloud DCN V4架構

新架構中,咱們主要作了以下優化:

1. 硬件總體升級到25G/100G平臺 2017年末到2018年上半年,各商用交換機大廠的25G/100G網絡設備逐漸成熟,25G/100G光模塊價格也趨於合理,同時GPU、實時大數據、NVMeoF等業務需求爆發,IO瓶頸從服務器內部轉移到了網絡上。所以,咱們開始着手將硬件從10G升級到25G平臺。

咱們從2017年末開始,對各主流交換機、光模塊、光纖、服務器網卡廠商的主流25G/100G產品進行了選型、交叉測試、線上小批量,投入了8個月的時間,累計交叉測試超過300個產品組合,最終肯定整套25G/100G硬件產品。

本月已上線的福建GPU可用區,利用此架構,同時支持10G/25G物理網絡。25G網絡帶來更高的集羣運算效率,和普通可用區提供的GPU雲主機相比,總體性能翻倍,這對AI訓練這樣看重絕對性能的場景很是重要。

圖:GPU物理雲10G/25G網關集羣

2. 3級CLOS的設計

圖:2級CLOS

CLOS架構要求下一級設備須要跟上一級設備full-mesh,所以在V3的2級CLOS架構下,Leaf層的接入交換機(下簡稱AS)必須鏈接到全部Spine層的核心交換機(下簡稱DS),也就是2臺DS;若是設計爲4臺DS,那麼AS就必須四上連到每一臺DS,複雜度直線上升。所以DCN總體容量取決於DS設備的總端口數,DS設備的槽位數越多、單槽位端口密度越大,那麼一個DCN可接入服務器容量就越大。

圖:3級CLOS

V4改用新的3級CLOS設計。Leaf層的每一臺匯聚交換機(下簡稱CS)須要上連到全部Spine層的DS。好比一臺典型的CS是32端口100G設備,16口上連DS,16口下聯AS:

設計的2臺DS,1臺CS出8個口連到DS一、8個口連到DS2,總共16個上連,每臺DS消耗8個端口; 若是設計的是4臺DS,1臺CS的16個上連口分紅4組,每組4個口分別上連到DS1/2/3/4,每臺DS消耗4個端口; 若是是8臺DS,那麼1臺CS只須要消耗DS的2個端口…… 能夠看到,設計的Spine層的設備越多,每臺CS須要DS的端口數越少,能夠接入的CS數量就越多,在其餘條件不變的狀況下,整個DCN接入容量就越大。

咱們經過2級CLOS→3級CLOS的架構變化,使得整個DCN的接入容量得以提高,理論上,隨着硬件技術的發展,設計容量能夠提高到無窮大。這就解決了DCN容量上的問題。按咱們目前的設計,單DC容量最大能夠提供80,000個服務器接入端口,單可用區可達到320,000個,是DCN V3時代的4倍,能知足UCloud全部地域將來幾年平滑擴容的須要。

3. POD的引入 2級CLOS變爲3級CLOS以後,多出了一個匯聚層,咱們把一組匯聚交換機及其下連的接入交換機、以及接入交換機帶的機架,整體稱爲一個POD。單個POD提供一致的網絡能力,包括:

一致的鏈接方式。一個POD裏,全部AS到CS的鏈接方式是同樣的,好比都是1100G單線互連或者都是2100G;全部服務器到AS的鏈接也是一致的,好比每臺服務器125G連到AS或者225G連到AS。 一致的網絡特性。一個POD支持的網絡特性是同樣的,好比支持ECMP、支持開啓QoS、支持直接接入到公網等。 這讓咱們能夠根據業務對網絡性能和特性的要求,針對性的開設POD。

例如,當前的業務分區有公有云區、物理雲區、託管雲區、網關區、管理區、IPv6區等,其中公有云區、網關區、管理區、IPv6區對基礎網絡的要求基本一致,在新的POD設計思路下,均合併爲「內網POD」。而大數據區、雲存儲區等網絡IO極高的業務,則設置了「高性能內網POD」,具備每臺服務器2*25G全線速接入的網絡能力, 提供QoS和無損網絡特性。此外,還有「綜合POD」應對要求公網/其餘特殊網絡需求的服務器接入,「混合雲POD」提供裸金屬或用戶私有云接入等,知足不一樣的業務需求,來解決靈活性問題。

總的來講,POD是按照網絡能力設計的,知足不一樣業務的需求,且能避免成本浪費,控制CAPEX,並避免按業務分區致使過多的網絡分區,控制維護的複雜度。

4. DC Group UCloud公有云資源池分爲「地域」(通常是一個地理上的城市)和「可用區」(簡稱AZ,兩個可用區通常距離10km以上,基礎設施隔離)兩級。

一個AZ能夠包含多個DC,但實際上,因爲V3架構下DC都是鏈接到POP、與其餘DC互通,這就須要拉光纜、架設波分,帶來帶寬瓶頸和時延上升。因此即便兩個DC距離很是近,做爲一個AZ資源池也不合適,做爲兩個AZ則與AZ的距離要求相悖、也不合適。

圖:DC Group產生先後對比

V4架構提出了「DC Group」概念,將地理位置相近的DC間full-mesh鏈接起來,做爲同一個AZ對外提供服務。帶來的好處有:

網絡時延低。DC Group內的DC之間距離很是近,一般不超過10km,由此帶來的時延在0.1ms之內; 增長冗餘度和帶寬。因爲DC之間距離近,光纜成本也低,咱們能夠增長更多的光纜鏈接,一方面保證足夠的冗餘度,另外一方面增長足夠的帶寬; 可滾動升級。能夠經過新建新一代DC的方式,知足新業務在原AZ裏上線的要求,且對運行中的DC基本無影響。 例如,前段時間咱們發佈了高性能SSD雲盤產品。在業務部署階段,恰逢北京二可用區D的空閒機櫃很少,若是等申請到新機櫃再部署,就浪費了寶貴的時間。而若是隻把產品部署在新開的可用區,就沒法照顧原可用區用戶的須要。

這個矛盾在DC Group架構下,就能夠經過添加新DC獲得良好解決。

總結

UCloud整體網絡設計中,基礎網絡的目標是「穩定」和「高效」。基礎網絡經過組織物理線路、經典網絡設備和網絡技術,造成了一張穩定並且高性能的網絡底層,爲上層業務提供IP連通性。基礎網絡下承機房基礎設施、上接業務,須要解決「業務需求變化快」和「基礎網絡升級難」這一對永恆的矛盾。DCN數據中心網絡是基礎網絡最重要的一個組成部分。

圖:UCloud整體網絡設計

咱們過去一年所從新設計的DCN V4架構,令新建的DC全面升級到25G/100G、支持無損網絡特性、提高了DC容量和DC間的性能、提供了AZ資源的水平擴展和滾動升級能力。總而言之,平衡了「新需求」和「老架構」之間的矛盾,能夠知足數年的發展需求。將來,基礎網絡會繼續緊跟技術發展潮流,爲各公有云產品提供更穩定、更高效的底層網絡。

相關文章
相關標籤/搜索