常用優化方法總結

本篇博文總結一些常用的優化算法。 梯度下降法 最常見的優化方法是 SGD S G D ,基礎的原理不詳細講了,講下其缺陷。 從泰勒公式的角度來看,梯度下降法將 f(x) f ( x ) 展開到了一階。 θ=θ−η∗▽θJ(θ) θ = θ − η ∗ ▽ θ J ( θ ) 1. 當學習率太小,到達最優點會很慢。 2. 當學習率太高,可能會跳過最優點,出現震盪的現象。 3. 可能會陷入局部最優。
相關文章
相關標籤/搜索