4種梯度下降的變種優化算法的拙見：Adagrad、RMSprop、Momentum、Adam（原創）

時間 2020-12-24

標籤優化算法機器學習算法深度學習简体版

原文原文鏈接

一、算法簡述 Momentum（動量法）：模擬物理動量的概念，積累之前的動量來替代真正的梯度 Adagrad（Adaptive Gradient）：每個參數反比於歷史梯度平方總和的平方根 RMSprop（Root Mean Squared propagation）：AdaGrad的升級（將梯度積累替換爲Running Average） Adam（Adaptive Moment Estimation

>>阅读原文<<