深度學習筆記(二):2優化算法(二)(Momentum, RMSProp, Adam)

1.動量梯度下降法(Gradient descent with Momentum) 基本的想法:運行速度幾乎總是快於標準的梯度下降算法,簡而言之,就是計算梯度的指數加權平均數,並利用該梯度更新你的權重 例如,在上幾個導數中,你會發現這些縱軸上的擺動平均值接近於零,所以在縱軸方向,你希望放慢一點,平均過程中,正負數相互抵消,所以平均值接近於零。但在橫軸方向,所有的微分都指向橫軸方向,因此橫軸方向的平
相關文章
相關標籤/搜索