提升GPU利用率，阿里雲cGPU容器技術助力人工智能提效降本

人工智能已經深刻影響各行各業，做爲人工智能實現的主流實現路徑，深度學習對算力的需求龐大且波動，上雲已成主流趨勢。多線程

GPU是人工智能算力的重要來源。互聯網及傳統企業客戶，只要有人工智能相關的業務，都須要租用GPU雲服務器來作深度學習模型的訓練與推理。學習

隨着顯卡技術的不斷髮展和半導體制程工藝的進步，單張GPU卡算力水漲船高，成本愈發高昂。然而，有許多的深度學習任務，並不須要佔用一整張GPU卡。資源調度不夠靈活，形成了GPU資源利用率不高。阿里雲

這時候，用容器調度底層GPU資源就成了一種很好的解決方案。多租戶（VM）使用同一張GPU卡，能夠依靠vGPU技術實現；而單租戶多線程的場景，則能夠經過GPU容器共享技術實現。經過在GPU卡之上高密度的容器部署，能夠將GPU資源作更細顆粒度的切分，提升資源利用率。人工智能

阿里雲異構計算近日推出的cGPU容器共享技術，讓用戶經過容器來調度底層GPU資源，以更細顆粒度調度使用GPU，提升GPU資源利用率，達到降本增效的目的。線程

目前業界廣泛使用GPU容器技術。在容器調度GPU的時候，不一樣線程中的容器應用可能出現顯存資源爭搶和互相影響的問題，未能作到容器的徹底隔離。好比，對顯存資源需求強烈的應用，可能會佔用了過多資源，使得另外一線程的容器應用顯存資源不足。也就是說只解決了算力爭搶的問題，卻未能解決故障隔離的問題。好比某企業在跑兩個容器中分別運行着GPU的推理應用，一個已經穩定了，一個還在開發階段。若是其中一個容器中的應用出現故障，因爲沒有實現很好的隔離技術，每每致使另外一容器中的應用也會出現故障。blog

目前，行業內還有一種改良方案，經過把CUDA運行庫替換或者進行調整，這種方案的弊端是用戶無法將自身搭建的環境無縫放到雲廠商的環境中，而是須要適配和更改CUDA運行庫。資源

阿里雲推出的cGPU容器技術，能夠實現容器的安全隔離，業務之間不會互相干擾，各容器之間的故障不會相互傳遞，更安全、更穩定；同時對客戶環境無侵入，如客戶無需修改CUDA運行庫等，就能讓客戶靈活地利用容器調度底層GPU資源。開發

阿里雲cGPU容器技術的推出，將進一步推進更多的企業使用容器調度底層GPU容器資源，可以毫無後顧之憂地提高GPU資源利用率，實現降本增效。