【深度學習】關於Adam

時間 2020-05-23

標籤深度學習關於 adam 简体版

原文原文鏈接

本文連接： https://blog.csdn.net/weixin_31866177/article/details/88601294

從SGD（SGD指mini-batch gradient descent）和Adam兩個方面提及。html

更詳細的能夠看：深度學習最全優化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）（醍醐灌頂！）算法

SGD

SGD就是每一次迭代計算mini-batch的梯度，而後對參數進行更新，是最多見的優化方法了。即：session

其中， $\eta$ 是學習率，是梯度 SGD徹底依賴於當前batch的梯度，因此 $\eta$ 可理解爲容許當前batch的梯度多大程度影響參數更新。框架

缺點：（正由於有這些缺點才讓這麼多大神發展出了後續的各類算法）學習

選擇合適的learning rate比較困難 - 對全部的參數更新使用一樣的learning rate。對於稀疏數據或者特徵，有時咱們可能想更新快一些對於不常常出現的特徵，對於常出現的特徵更新慢一些，這時候SGD就不太能知足要求了

SGD容易收斂到局部最優，而且在某些狀況下可能被困在鞍點【原來寫的是「容易困於鞍點」，經查閱論文發現，其實在合適的初始化和step size的狀況下，鞍點的影響並沒這麼大。感謝@冰橙的指正】

參數取值震盪嚴重。（我本身添加的）