深度學習課堂筆記 5.18

深度學習課堂筆記 基於動量的梯度下降 二者區別在於,Nesterov會先更新一次參數 自適應學習率算法 學習率是難以設置的超參數。動量算法可以一定程度地緩解該問題,但又引入了另一個超參。 AdaGrad算法 學習率逐次下降。從訓練開始時積累梯度平方導致學習率過早變小 RMSProp算法 累積梯度平方時做了指數加權平滑 Adam算法 結合了Momentum和RMSProp的優點 深度學習中的調參 參
相關文章
相關標籤/搜索