Day9 深度學習入門

參數的更新 神經網絡學習的目的是找到使損失函數的值儘可能小的參數。常見的有以下四種: SGD(stochastic gradient descent)、Momentum、AdaGrad、Adam。 Adam論文 這四種方法並不存在能在所有問題中都表現良好的方法,都有各自擅長和不擅長解決的問題。SGD受具體問題(函數形狀)的限制,負梯度方向不一定始終指向最優值。所以後三種都是對其的一種改進(下圖表示
相關文章
相關標籤/搜索