Adam和學習率衰減(learning rate decay)

1、梯度下降法更新參數 梯度下降法參數更新公式: 其中,η 是學習率,θt是第 t 輪的參數,J(θt) 是損失函數,∇J(θt) 是梯度。 在最簡單的梯度下降法中,學習率 ηη 是常數,是一個需要實現設定好的超參數,在每輪參數更新中都不變,在一輪更新中各個參數的學習率也都一樣。 爲了表示簡便,令,所以梯度下降法可以表示爲:   2、Adam 更新參數 Adam,全稱 Adaptive Momen
相關文章
相關標籤/搜索