深度學習優化器的對比

轉載:https://blog.csdn.net/winycg/article/details/79363169 梯度下降框架 給定優化的模型參數θ∈Rdθ∈Rd和目標函數J(θ)J(θ)後,算法沿着梯度∇θJ(θ)∇θJ(θ)的相反方向更新θθ最小化J(θ)J(θ)。學習率ηη決定了每一時刻的更新步長。對某一步,可以用下述步驟描述梯度下降流程:  1.計算目標函數的梯度  gt=∇θJ(θ)gt
相關文章
相關標籤/搜索