Day9 深度學習入門

時間 2020-12-29

原文原文鏈接

參數的更新神經網絡學習的目的是找到使損失函數的值儘可能小的參數。常見的有以下四種： SGD(stochastic gradient descent)、Momentum、AdaGrad、Adam。 Adam論文這四種方法並不存在能在所有問題中都表現良好的方法，都有各自擅長和不擅長解決的問題。SGD受具體問題(函數形狀)的限制，負梯度方向不一定始終指向最優值。所以後三種都是對其的一種改進(下圖表示

>>阅读原文<<