《動手學深度學習》第三十三天---AdaGrad算法，RMSProp算法，AdaDelta算法，Adam算法

時間 2020-06-08

標籤動手學深度學習第三十三天 3天 adagrad 算法 rmsprop adadelta adam 简体版

原文原文鏈接

回顧一下以前的優化算法：在動量法中，咱們用到指數加權移動平均來使得自變量的更新方向更加一致，從而下降發散的問題。 web （一）AdaGrad算法 AdaGrad算法會使用一個小批量隨機梯度gt按元素平方的累加變量st。在時間步0，AdaGrad將s0中每一個元素初始化爲0。在時間步t，首先將小批量隨機梯度gt按元素平方後累加到變量st：其中⊙是按元素相乘若是目標函數有關自變量中某個元素的偏

>>阅读原文<<