Deep learning II - II Optimization algorithms - Gradient descent with momentum 動量梯度下降算法

Gradient descent with momentum 動量梯度下降算法 運用指數加權平均算法,計算梯度的指數加權平均,然後用這個梯度來更新權重。 當使用梯度下降時,下降路徑可能會和上圖藍色路徑相似,不斷震盪;所以我們不能用比較大的learning_rate,以防出現如紫色路徑一樣的diverging。 通過使用指數加權平均,在縱座標(以上圖闡述)方向的來回震盪通過加權之後,會相互抵消而減小
相關文章
相關標籤/搜索