深度學習《CNN架構續篇 - 學習率衰減》

截圖來自於吳恩達的深度學習視頻。 我們在參數更新的時候,存在一個步長α,這個參數代表了我們每一輪迭代在梯度方向上要進步的步伐長度,以前呢罵我們都是設置成規定值,那麼有什麼影響呢?首先簡單不用說了,在某個梯度下降的過程中,在谷底(梯度最低值)的時候,可能出現始終徘徊到達不了最低點,甚至反而出現越來越大不收斂的情況,原因就是步長一致導致的,因此有個優化方式就是,將固定的步長α改成變化的值,怎麼變呢?
相關文章
相關標籤/搜索