學習率衰減

學習率衰減(learning rate decay)同樣也可以讓我們的學習算法運行地更快,它能保證損失函數最終擺動時處在離最優值很近的範圍內。 爲什麼需要學習率衰減 前面我們講過,mini-batch 梯度下降算法可以提高更新權重的速度,讓我們及時看到損失函數的情況,但是每個損失函數並不會一直下降,而是在保證整體趨勢減小的情況下略微波動,如果用一個等高線圖來表示就是這樣的: 上圖的中心點爲最優值點
相關文章
相關標籤/搜索