在PyTorch中使用DistributedDataParallel進行多GPU分佈式模型訓練

時間 2020-09-14

標籤 pytorch 使用 distributeddataparallel 進行 gpu 分佈式模型訓練欄目系統架構简体版

原文原文鏈接

先進的深度學習模型參數正以指數級速度增加:去年的GPT-2有大約7.5億個參數，今年的GPT-3有1750億個參數。雖然GPT是一個比較極端的例子可是各類SOTA模型正在推進愈來愈大的模型進入生產應用程序，這裏的最大挑戰是使用GPU卡在合理的時間內完成模型訓練工做的能力。html 爲了解決這些問題，從業者愈來愈多地轉向分佈式訓練。分佈式訓練是使用多個GPU和/或多個機器訓練深度學習模型的技術。

>>阅读原文<<