A Convergence Analysis of Distributed SGD with Communication-Efficient Gradient Sparsification 論文閱讀

時間 2020-12-24

標籤論文閱讀算法機器學習深度學習简体版

原文原文鏈接

1 Introduction 隨機梯度下降的更新流程爲其中 x ∈ R n x\in \mathbb{R}^n x∈Rn爲模型參數,我們可以給定包含 P P P個工作節點的集羣來加快訓練的過程,其中第 p p p個節點計算得到的更新爲 G p ( x t ) G^p(x_t) Gp(xt),更新過程修改爲這種同步的隨機梯度下降算法稱爲S-SGD.理想情況下訓練的速度可以加快了P倍,但由於受到

>>阅读原文<<