TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning 論文閱讀

時間 2020-12-24

標籤論文閱讀機器學習深度學習简体版

原文原文鏈接

問題描述及算法考慮下圖所示的分佈式機器學習架構. 我們用 t t t表示迭代訓練的次數, N N N代表節點的數量,工作節點 i i i計算得到的梯度向量爲 g t ( i ) \mathbf{g}^{(i)}_t gt(i),輸入的樣本爲 z t ( i ) \mathbf{z}^{(i)}_t zt(i). 爲了能夠進一步實現壓縮,在訓練過程中中央服務器並不保存模型,每個工作節點都保存一

>>阅读原文<<