分佈式深度學習的兩種集羣管理與調度的實現方式簡介

時間 2021-01-12

原文原文鏈接

爲什麼需要集羣管理與調度上文我們簡單介紹了深度學習、分佈式CPU+GPU集羣的實現原理，以及分佈式深度學習的原理，我們簡單回顧一下：分佈式CPU+GPU集羣的實現： GPU集羣並行模式即爲多GPU並行中各種並行模式的擴展，如上圖所示。節點間採用InfiniBand通信，節點間的GPU通過RMDA通信，節點內多GPU之間採用基於infiniband的通信。分佈深度學習框架的實現：如下圖所示，

>>阅读原文<<