CS231n 7. Training Neural Networks II 訓練神經網絡

時間 2020-12-27

標籤神經網絡 cs231n 简体版

原文原文鏈接

7.1 更好的優化隨機梯度下降（SGD）：在每次迭代中，選取一小部分訓練樣本，成爲minibatch（小批量），用minibatch來估算誤差總和L(W)和實際梯度wL(W).這種選取是隨機的，當做對真實值期望的蒙特卡洛估計。 SGD存在的問題：鞍點：既不是極大值點也不是極小值點的臨界點噪聲項。。優化算法：使網絡更快收斂 SGD動量法：加入動量項 vt v t 初始化爲0 Nester

>>阅读原文<<