CS231n 7. Training Neural Networks II 訓練神經網絡

7.1 更好的優化 隨機梯度下降(SGD):在每次迭代中,選取一小部分訓練樣本,成爲minibatch(小批量),用minibatch來估算誤差總和L(W)和實際梯度wL(W).這種選取是隨機的,當做對真實值期望的蒙特卡洛估計。 SGD存在的問題: 鞍點:既不是極大值點也不是極小值點的臨界點 噪聲項。。 優化算法:使網絡更快收斂 SGD動量法: 加入動量項 vt v t 初始化爲0 Nester
相關文章
相關標籤/搜索