A Convergence Analysis of Distributed SGD with Communication-Efficient Gradient Sparsification 論文閱讀

1 Introduction 隨機梯度下降的更新流程爲 其中 x ∈ R n x\in \mathbb{R}^n x∈Rn爲模型參數,我們可以給定包含 P P P個工作節點的集羣來加快訓練的過程,其中第 p p p個節點計算得到的更新爲 G p ( x t ) G^p(x_t) Gp(xt​),更新過程修改爲 這種同步的隨機梯度下降算法稱爲S-SGD.理想情況下訓練的速度可以加快了P倍,但由於受到
相關文章
相關標籤/搜索