2020-05-15-用於深度學習訓練的分佈式多租戶GPU集羣分析

Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads 作者提出分佈式機器學習系統中出現的三個問題: 作業調度 GPU利用率 訓練中會產生的錯誤 作業調度 由於分佈式機器學習中要求資源限制而使用gang調度算法,因此會產生資源碎片導致利用率不高。 由於需要同步參數因此分佈式作業locality非常重要
相關文章
相關標籤/搜索