【Deep Learning 】深度模型中的優化問題(五)AdaGrad(自適應算法1)

本文是Deep Learning 之 最優化方法系列文章的AdaGrad方法(自適應算法1)。主要參考Deep Learning 一書。   以下節選自個人深度學習筆記。 內容整合來源於網絡與個人理解。   Adagrad 口 應該爲不同的參數設置不同的學習步長。 口 梯度越小,則學習步長越大,反之亦然。 口 想象一下:在緩坡上,可以大步地往下跑;而且陡坡上,只能小步地往下挪   ③ 上面提到的方
相關文章
相關標籤/搜索