《動手學深度學習》第三十三天---AdaGrad算法,RMSProp算法,AdaDelta算法,Adam算法

回顧一下以前的優化算法: 在動量法中,咱們用到指數加權移動平均來使得自變量的更新方向更加一致,從而下降發散的問題。 web (一)AdaGrad算法 AdaGrad算法會使用一個小批量隨機梯度gt按元素平方的累加變量st。在時間步0,AdaGrad將s0中每一個元素初始化爲0。在時間步t,首先將小批量隨機梯度gt按元素平方後累加到變量st: 其中⊙是按元素相乘 若是目標函數有關自變量中某個元素的偏
相關文章
相關標籤/搜索