TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning 論文閱讀

問題描述及算法 考慮下圖所示的分佈式機器學習架構. 我們用 t t t表示迭代訓練的次數, N N N代表節點的數量,工作節點 i i i計算得到的梯度向量爲 g t ( i ) \mathbf{g}^{(i)}_t gt(i)​,輸入的樣本爲 z t ( i ) \mathbf{z}^{(i)}_t zt(i)​. 爲了能夠進一步實現壓縮,在訓練過程中中央服務器並不保存模型,每個工作節點都保存一
相關文章
相關標籤/搜索