4種梯度下降的變種優化算法的拙見:Adagrad、RMSprop、Momentum、Adam(原創)

一、算法簡述 Momentum(動量法):模擬物理動量的概念,積累之前的動量來替代真正的梯度 Adagrad(Adaptive Gradient):每個參數反比於歷史梯度平方總和的平方根 RMSprop(Root Mean Squared propagation):AdaGrad的升級(將梯度積累替換爲Running Average) Adam(Adaptive Moment Estimation
相關文章
相關標籤/搜索