Blink:網絡自適配的GPU集羣通信庫 - 深度學習集羣

https://www.infoq.cn/article/8N5rWvUSR1W6ss4AtgXi 2019 年 10 月 29 日 13:53 筆記:   摘要 當下大規模分佈式機器學習模型訓練中,數據並行是最廣爲使用的方法。隨着 GPU 的算力不斷提升,GPU 間的數據聚合(即模型同步)成爲了大規模分佈式模型訓練的瓶頸。當下流行的數據聚合庫函數(Nvidia 的 NCCL,百度的 Ring-A
相關文章
相關標籤/搜索