延遲補償的異步隨機梯度下降(ASGD with DC)

摘要 隨着深度學習快速發展,目前普遍使用大數據訓練龐大神經網絡。因爲效率高,ASGD廣泛使用,但是有梯度延遲的缺陷。這是因爲當一個本地worker將梯度push到全局模型中時,可能這個全局模型已經被其他worker將梯度更新過了,這樣本地worker push的梯度就是延遲的。因此本文提出補償延遲的一個新技術,爲了使ASGD更接近於SGD的優化效果。這是利用梯度函數的泰勒展開來有效逼近損耗函數的H
相關文章
相關標籤/搜索