2015年,UCloud在國內雲廠商中首先推出了K80-GPU雲主機。此後,咱們又相繼推出了P40、V100等GPU雲主機、定製化物理機以及UAI-Train、UAI-Inference等以GPU爲基礎的AI產品,爲人工智能用戶持續創造價值。現在,咱們更進一步,推出專門的GPU可用區。經過對架構精裁,其相比於普通可用區,GPU價格下降20%,帶寬價格下降64%,並支持10G/25G物理網絡和VPC私有網絡,憑藉獨享性能、豐富產品互聯、自助購買、按月租賃,幫助用戶避免自行維護GPU集羣作AI訓練的高昂投入。安全
目前,福建GPU可用區A已對所有用戶開放,並支持在控制檯直接購買下單。服務器
下降20%成本,支持按月付費網絡
GPU使用成本高,一方面是GPU卡自己很是昂貴,另外一方面功耗與機櫃成本幾乎佔據了總體成本的40%,而這部分紅本能夠被有效下降。爲此UCloud在國內臻選電力成本較低且符合基礎標準的機房創建GPU可用區。這次上線的GPU可用區位於福建省,爲省級骨幹IDC機房,符合國際數據中心標準Tier3,提供移動線路。架構
UCloud的雲計算核心本來爲標準可用區設計,目的是支撐上萬級別的服務器,近百種不一樣的雲計算服務。爲了提高總體性價比,咱們花費1周時間,便對GPU可用區快速進行了定製,推出了一個全新版本的迷你型雲計算核心,內部代號「螞蟻」。「螞蟻」核心壓縮了超過50%的雲控制面成本,依然能支撐起完整的物理雲主機與網絡產品並提供穩定的服務。運維
受益於功耗、機櫃、雲計算核心攤銷成本的下降,GPU可用區的物理雲單價比UCloud其餘標準可用區都要便宜20%。以V100物理云爲例,GPU可用區在北京二可用區E的列表單價下降5000元/月,和業內相比也有突出的價格優點。UCloud亦提供更具性價比的GPU機型可供選擇。分佈式
GPU可用區的計費模式與其餘可用區一致,物理機支持按月與按年付費,可隨時釋放。用戶沒必要一次性投入巨大的開支,可自如增減集羣規模,應對市場的動態變化。此外,福建GPU可用區提供移動單線網絡,帶寬費用比其餘可用區下降64%。性能
最大單精浮點性能104 TFLOPs,獨享物理機雲計算
GPU可用區以成熟的物理雲產品體系爲依託。計算、存儲、網絡性能均沒有任何虛擬化帶來的額外開銷。這對AI訓練這樣看重絕對性能的場景很是重要。人工智能
一臺GPU物理機最大能支持104 TFLOPs的單精度浮點性能,約等於2000顆CPU的算力。採用10G與25G兩套物理網絡環境。25G網絡帶來更高的集羣運算效率,集羣規模≥10臺計算節點時,均推薦採用25G。和普通可用區提供的GPU雲主機相比,總體性能翻倍。設計
物理雲主機產品已實現後臺資源交付入庫、系統裝機等流程高度自動化,並支持多種鏡像、多種RAID模式可選。用戶直接在控制檯點選後就自動執行裝機操做,30分鐘內裝機完成便可使用,免去傳統物理機運輸、搭建、部署、調試等冗長過程。
物理雲主機裝機中
針對物理機難以免的硬件故障隱患,UCloud硬件運維團隊維護了詳細的固件問題列表,發現隱患會及時發起固件的全網升級;物理雲主機在交付用戶前、用戶退還機器後均會自動執行完整的硬件檢測。此外物理雲集成了UCloud監控平臺,經過監控提早發現磁盤故障、GPU卡溫度太高等硬件問題,並通知NOC團隊快速處理(7*24小時)。
GPU物理雲的網關有A/B兩套互備集羣,網絡流量可在AB集羣之間平滑切換。因爲此架構,在主網關出現故障時能實現快速切換到備用網關,最小化對用戶的影響;亦能經過集羣切換實現網絡架構的平滑升級。經過這套模式,北京地區的物理雲集羣實現了從10G網關到25G網關的在線動態升級,用戶除了低峯期網絡瞬斷外徹底無感知。將來GPU可用區的網關也能經過這種能力不斷更新版本。
物理雲網關互備集羣
豐富的產品互聯
GPU可用區支持標準的網絡產品,包括彈性EIP、私有網絡VPC、NAT網關等。將來計劃將上線高速通道UDPN,和廣州可用區互聯。
在AI訓練場景下,TB級別的訓練數據如何搬遷上雲是用戶的核心訴求。UCloud提供高性能NAS盤櫃寄送服務,可支持最大100T的離線數據搬遷,傳輸做業完成後,會以低階格式化方式擦除數據,以確保數據安全。
分佈式訓練場景下一般須要大容量的中央存儲節點。GPU可用區目前提供SSD磁盤的高性能物理機做爲存儲節點。後續將提供UFS(分佈式文件存儲)產品,給用戶提供最優的存儲選擇。
對福建GPU可用區有任何建議和疑問,歡迎點擊http://ucloudtml.mikecrm.com/aiTDtNg垂詢。