優化算法note

發展: 優化算法的主要步驟: SGD: 下降梯度就是最簡單的 最大的缺點是下降速度慢,而且可能會在溝壑的兩邊持續震盪,停留在一個局部最優點。 SGD with Momentum 下坡的時候,如果發現是陡坡,那就利用慣性跑的快一些 引入了一階動:一階動量是各個時刻梯度方向的指數移動平均值,約等於最近 1/(1 - β) 個時刻的梯度向量和的平均值。 也就是說,t時刻的下降方向,不僅由當前點的梯度方向
相關文章
相關標籤/搜索