RingAllreduce和NCCL

(2017年)百度將高性能計算引入深度學習:可高效實現模型的大規模擴展 RingAllreduce;適用於單機多卡/多機多卡; 關鍵在於認識到機器硬件拓撲,然後根據拓撲去構建使得最大的邊延遲最小的方案; (Step1, Step2, Step3那種AllReduce,在多機通過交換機互聯情況下,也可以和機器數目無關);   NCCL是最快的! 不同的GPU卡拓撲,採用環形AllReduce,性能是
相關文章
相關標籤/搜索