47分鐘,BERT訓練又破全新紀錄!英偉達512個GPU訓練83億參數GPT-2 8B

關注上方「深度學習技術前沿」,選擇「星標公衆號」, 資源乾貨,第一時間送達! 具有92個DGX-2H節點的NVIDIA DGX SuperPOD通過在短短47分鐘內訓練BERT-Large創下了新紀錄。該紀錄是通過每個節點上的1472個V100 SXM3-32GB 450W GPU和8個Mellanox Infiniband計算適配器,自動混合精度運行PyTorch來提高吞吐率,並使用本文中的訓練
相關文章
相關標籤/搜索