深度學習筆記(2):2.9 學習率衰減 | 2.10 局部最優問題

2.9 學習率衰減 今天來講一下關於學習率衰減(learning rate decay)的問題。首先說一下爲什麼要衰減學習率,如下圖所示: 假設我們使用mini-batch梯度下降法,之前我們已經講過它的一些特點,比如路徑曲折不直接、有噪音(路徑曲折不直接和有噪音是一回事)、在最優值附近波動不收斂。也許在剛開始學習時,我們可以承受較大的步長帶來的代價,但是隨着不斷學習至開始收斂時,通過慢慢的減少學
相關文章
相關標籤/搜索