CS231n李飛飛計算機視覺 神經網絡訓練細節part2上

神經網絡訓練細節part2上 參數更新機制 SGD Momentum update Nesterov Momentum update AdaGrad update RMSProp update Adam update SGD 隨機梯度下降: x += - learning_rate * dx 特點:如果在水平方向上梯度較小,而在垂直方向上梯度較大,會造成在水平方向更新較慢,而在垂直方向上造成上下抖
相關文章
相關標籤/搜索