RingAllreduce和NCCL

時間 2021-07-13

原文原文鏈接

（2017年）百度將高性能計算引入深度學習：可高效實現模型的大規模擴展 RingAllreduce；適用於單機多卡/多機多卡；關鍵在於認識到機器硬件拓撲，然後根據拓撲去構建使得最大的邊延遲最小的方案；（Step1, Step2, Step3那種AllReduce，在多機通過交換機互聯情況下，也可以和機器數目無關）； NCCL是最快的！不同的GPU卡拓撲，採用環形AllReduce，性能是

>>阅读原文<<