幾種梯度下降優化器和技巧介紹

本文章大部分算法來自於這篇論文 An overview of gradient descent optimization algorithms 優化器: 1.動量(mommentum) 採用部分上一時刻的動量來更新這一步的梯度,具有加速收斂,減緩震盪的作用 2.NAG(Nesterov Accelerated Gradient) 加入了預測的概念,預測的依據是假設和上一次和這一次的動量一樣,可以有
相關文章
相關標籤/搜索