《python深度學習》對於動量法的解釋

《python深度學習》對於動量法的解釋 動量解決了 SGD 的兩個問題:收斂速度和局部極小點。 圖 2-13 給出了損失作爲網絡參數的函數的曲線。 如你所見,在某個參數值附近,有一個局部極小點(local minimum):在這個點附近,向左移動和向右移動都會導致損失值增大。如果使用小學習率的SGD 進行優化,那麼優化過程可能會陷入局部極小點,導致無法找到全局最小點。 使用動量方法可以避免這樣的
相關文章
相關標籤/搜索