優化算法

時間 2021-01-20

標籤深度學習简体版

原文原文鏈接

AdaGrad 針對簡單的SGD及Momentum存在的問題，2011年John Duchi等發佈了AdaGrad優化算法(Adaptive Gradient，自適應梯度)，它能夠對每個不同的參數調整不同的學習率，對頻繁變化的參數以更小的步長進行更新，而稀疏的參數以更大的步長進行更新。其中，gt表示第t時間步的梯度（向量，包含各個參數對應的偏導數，gt,i表示第i個參數t時刻偏導數） gt2表示

>>阅读原文<<