阿里雲發佈了國內首個公共雲上的輕量級GPU異構計算產品——VGN5i實例,該實例打破了傳統直通模式的侷限,能夠提供比單顆物理GPU更細粒度的服務,從而讓客戶以更低成本、更高彈性開展業務。適用於雲遊戲、VR/AR、AI推理和DL教學等輕量級GPU計算場景,更細粒度的GPU計算服務。安全
輕量級GPU雲服務器是一種新的GPU雲服務器規格族,是經過公共雲的GPU虛擬化技術將分片虛擬化後的GPU資源以虛擬GPU的形式安裝在GPU雲服務器實例中。與常規GPU雲服務器的區別在輕量級GPU雲服務器提供更細力度的GPU計算資源,好比擁有更少的CUDA計算核心,更小的顯存。這樣作的優點是在業務應用中,業務能夠根據資源所需更加靈活的配置GPU計算資源。服務器
GPU的計算顆粒過大:
單顆物理GPU的計算能力越作越強大,可是許多應用須要更小顆粒的GPU計算資源;
常規GPU資源不利於業務自動伸縮:
擁有單顆物理GPU資源的實例在業務部署中會由於要充分利用GPU資源而形成「胖節點」,不利於設計成彈性伸縮架構,缺少靈活性,沒法應對業務快速變化;
常規GPU計算實例沒法在線遷移:
常規直通虛擬化的GPU實例,因爲架構特性沒法支持GPU實例的在線遷移;架構
咱們從GPU加速器呈現方式,業務連續性,計算業務場景以及使用與管理看不一樣:
GPU加速器呈現
常規GPU雲服務器實例是經過設備直通方式提供物理GPU加速器;
輕量級GPU雲服務器實例是經過GPU虛擬化方式提供虛擬GPU加速器;
業務連續性
常規GPU雲服務器僅支持做業離線遷移
輕量級GPU雲服務器支持做業在線遷移
計算業務場景
常規GPU雲服務器適用於重負載的GPU加速計算,例如:深度學習訓練與推理計算、HPC計算、重載圖形計算
輕量級GPU雲服務器適用於輕負載的GPU加速計算,例如:輕負載的深度學習推理計算、深度學習教學場景、雲遊戲與VR/AR場景
使用與管理
常規GPU雲服務器提供彈性計算服務實例、業務擴展以單顆物理GPU資源方式增長
輕量級GPU雲服務器依然提供彈性計算服務實例,但業務擴展以更小粒度GPU資源方式增長(例如:1/8或1/4顆Tesla P4的資源);運維
技術亮點:支持用戶在公共雲上建立更小顆粒的虛擬GPU的雲服務器實例。
技術領先性有三點:
任何一項領先的計算技術要將其移植到公共雲上輸出,仍是要遵循可靠性、經濟性和易用性的技術要求。
首先是可靠性,公共雲服務器首先是公共服務,要給全部用戶提供「簡單可依賴」的基礎服務;雖然虛擬化GPU技術在私有部署條件下使用比較成熟,可是在公共雲上使用仍是要面臨幾個可靠性的挑戰的:第一是數據安全性;第二是資源隔離;這兩個問題在私有部署條件下一般是沒有要求的,緣由是私有部署都是給同一用戶部署使用,安全和資源爭搶問題都比較容易解決。可是,要在公共雲上使用,這些問題在公共雲上就必須解決。
其次是經濟性,用戶能選擇使用輕量級GPU雲服務器出發點是但願更加精細的使用GPU資源,本質是追求經濟性。虛擬化GPU技術在私有環境部署,由於需求肯定,能夠根據預想好的使用場景來配置虛擬化比例,但在公共雲場景就要解決既要知足全部用戶的使用場景,又要保持調度系統的高效,不斷下降成本,追求經濟性。
最後是易用性,易用性表如今幾個方面,一個是管理接口和使用習慣與其餘ECS實例保持一致,另外一個是APP在GPU實例中的使用場景和方式與其餘常規GPU實例保持一致。這樣用戶就沒有學習成本了。性能
GPU實例的用法與普通彈性計算實例同樣便捷,用戶可使用Web控制檯或者OpenAPI方式配置和購買服務。用戶在使用過程當中能夠徹底掌控該實例,該實例在阿里雲計算環境中運行,還能夠配合其餘雲服務一塊兒使用。當用戶業務遇到業務高峯時能夠在數分鐘內擴展新的實例來適應業務增加。用戶在虛擬化GPU服務的使用全過程當中都可以享受到在線服務諮詢和快速故障處理服務。學習
目前開放售賣基於NVIDIA Tesla P4的VGN5i實例,該實例提供八分之一到一比一的虛擬GPU加速器;
後面會上線基於NVIDIA Tesla T4的VGN6i實例,該實例提供十六分之一到一比一的虛擬GPU加速器;阿里雲
輕量級GPU雲服務器能夠根據業務需求配置建立貼合業務所需計算資源的GPU雲服務器實例,所以能夠在每一個輕量級GPU雲服務器實例上僅運行一個計算業務負載,在業務峯值來臨時,橫向擴展某一個計算業務負載便可。這樣的特性十分適合互聯網業務中AI計算的批量部署以及雲遊戲,AR/VR在雲端應用和深度學習的教學實驗場景。雲計算
VGN5i的用戶價值包括:下降批量部署GPU實例的成本,能夠輕鬆實現快速彈性伸縮以及提升運維效率。
下降批量部署成本
在諸多圖形計算和AI推理計算的場景中,用戶一般並不要求單GPU實例的計算性能十分強大,而是更加關注業務在批量部署中的成本。小粒度的虛擬化GPU實例則更加合適這些場景,很好的平衡用戶業務在批量部署中的成本需求。
實現快速彈性伸縮
擁有了小粒度的虛擬化GPU實例,用戶沒必要再爲了匹配較強的物理GPU資源而將服務部署成爲複雜的胖服務節點,而是能夠基於容器方式將有GPU計算需求的服務都解耦部署在不一樣的虛擬化GPU實例節點上。這樣部署的瘦服務節點更加有利於快速彈性伸縮,在業務的任什麼時候刻均可以應對自如,提升業務運維效率。
提升運維效率
使用小顆粒的虛擬化GPU實例進行瘦服務節點部署,使得服務環境配置和服務接口變得簡單,使用不一樣的鏡像便可部署大規模的AI應用而無需部署複雜的胖節點,提供運維效率,下降時間風險和成本。spa
原文連接設計
本文爲雲棲社區原創內容,未經容許不得轉載。