論文筆記——Asynchronous Stochastic Gradient Descent with Delay Compensation

論文筆記——Asynchronous Stochastic Gradient Descent with Delay Compensation 論文對ASGD算法進行了改進,對具有延遲的梯度設計了新的更新規則。 ASGD 下圖爲ASGD訓練過程,梯度gt應該對應模型wt,但是由於延遲,在參數服務器接收到時,模型已經更新到了wt+τ,ASGD對於延遲的梯度不做處理。 論文利用泰勒展開,將梯度展開,嘗試
相關文章
相關標籤/搜索