下降20%成本，國內首個GPU可用區上線

時間 2019-12-07

標籤下降 20% 成本國內 gpu 可用上線简体版

原文原文鏈接

2015年，UCloud在國內雲廠商中首先推出了K80-GPU雲主機。此後，咱們又相繼推出了P40、V100等GPU雲主機、定製化物理機以及UAI-Train、UAI-Inference等以GPU爲基礎的AI產品，爲人工智能用戶持續創造價值。現在，咱們更進一步，推出專門的GPU可用區。經過對架構精裁，其相比於普通可用區，GPU價格下降20%，帶寬價格下降64%，並支持10G/25G物理網絡和VPC私有網絡，憑藉獨享性能、豐富產品互聯、自助購買、按月租賃，幫助用戶避免自行維護GPU集羣作AI訓練的高昂投入。安全

目前，福建GPU可用區A已對所有用戶開放，並支持在控制檯直接購買下單。服務器

下降20%成本，支持按月付費網絡

GPU使用成本高，一方面是GPU卡自己很是昂貴，另外一方面功耗與機櫃成本幾乎佔據了總體成本的40%，而這部分紅本能夠被有效下降。爲此UCloud在國內臻選電力成本較低且符合基礎標準的機房創建GPU可用區。這次上線的GPU可用區位於福建省，爲省級骨幹IDC機房，符合國際數據中心標準Tier3，提供移動線路。架構

UCloud的雲計算核心本來爲標準可用區設計，目的是支撐上萬級別的服務器，近百種不一樣的雲計算服務。爲了提高總體性價比，咱們花費1周時間，便對GPU可用區快速進行了定製，推出了一個全新版本的迷你型雲計算核心，內部代號「螞蟻」。「螞蟻」核心壓縮了超過50%的雲控制面成本，依然能支撐起完整的物理雲主機與網絡產品並提供穩定的服務。運維

受益於功耗、機櫃、雲計算核心攤銷成本的下降，GPU可用區的物理雲單價比UCloud其餘標準可用區都要便宜20%。以V100物理云爲例，GPU可用區在北京二可用區E的列表單價下降5000元/月，和業內相比也有突出的價格優點。UCloud亦提供更具性價比的GPU機型可供選擇。分佈式

GPU可用區的計費模式與其餘可用區一致，物理機支持按月與按年付費，可隨時釋放。用戶沒必要一次性投入巨大的開支，可自如增減集羣規模，應對市場的動態變化。此外，福建GPU可用區提供移動單線網絡，帶寬費用比其餘可用區下降64%。性能

最大單精浮點性能104 TFLOPs，獨享物理機雲計算

GPU可用區以成熟的物理雲產品體系爲依託。計算、存儲、網絡性能均沒有任何虛擬化帶來的額外開銷。這對AI訓練這樣看重絕對性能的場景很是重要。人工智能

一臺GPU物理機最大能支持104 TFLOPs的單精度浮點性能，約等於2000顆CPU的算力。採用10G與25G兩套物理網絡環境。25G網絡帶來更高的集羣運算效率，集羣規模≥10臺計算節點時，均推薦採用25G。和普通可用區提供的GPU雲主機相比，總體性能翻倍。設計

物理雲主機產品已實現後臺資源交付入庫、系統裝機等流程高度自動化，並支持多種鏡像、多種RAID模式可選。用戶直接在控制檯點選後就自動執行裝機操做，30分鐘內裝機完成便可使用，免去傳統物理機運輸、搭建、部署、調試等冗長過程。

物理雲主機裝機中

針對物理機難以免的硬件故障隱患，UCloud硬件運維團隊維護了詳細的固件問題列表，發現隱患會及時發起固件的全網升級；物理雲主機在交付用戶前、用戶退還機器後均會自動執行完整的硬件檢測。此外物理雲集成了UCloud監控平臺，經過監控提早發現磁盤故障、GPU卡溫度太高等硬件問題，並通知NOC團隊快速處理(7*24小時)。

GPU物理雲的網關有A/B兩套互備集羣，網絡流量可在AB集羣之間平滑切換。因爲此架構，在主網關出現故障時能實現快速切換到備用網關，最小化對用戶的影響；亦能經過集羣切換實現網絡架構的平滑升級。經過這套模式，北京地區的物理雲集羣實現了從10G網關到25G網關的在線動態升級，用戶除了低峯期網絡瞬斷外徹底無感知。將來GPU可用區的網關也能經過這種能力不斷更新版本。