梯度下降優化算法整理:SGD、AdaGrad、RMSProp、Momentum、Adam

深度學習在執行梯度下降算法時,通常會面臨一系列的問題。如陷入local minimun、saddle point,訓練很慢或不收斂等諸多問題。因此需要對梯度下降算法進行優化,優化的考量主要有三個方面: batch的選擇問題,對訓練集進行一輪訓練,每次梯度下降更新參數時需要考慮訓練集中多少個樣本; learning rate的選擇問題,如果訓練過程中學習率是定值,顯然是不好的。因爲訓練開始階段可能較
相關文章
相關標籤/搜索