SINGLE-MACHINE MODEL PARALLEL BEST PRACTICES

 模型並行在分佈式訓練技術中得到了廣泛的應用。以前的帖子已經解釋瞭如何使用DataParallel數據並行在多個GPU上訓練神經網絡;這個特性將相同的模型複製到所有GPU,其中每個GPU消耗輸入數據的不同分區。雖然它可以顯著加速訓練過程,但對於模型太大而不能適應單個GPU的一些用例,它不起作用。這篇文章展示瞭如何通過使用model parallel模型並行來解決這個問題,與數據並行相比,它將單個模
相關文章
相關標籤/搜索