【CS231n筆記】06 Training Neural Networks, Part 2

1.參數更新 2.學習率更新 3.模型整合(model ensembles) 4. Dropout 5. 梯度檢查 6.卷積神經網絡簡史及應用 1.參數更新 訓練一個神經網絡的主要流程如下: a.簡單梯度下降(SGD) Q:假設損失函數在垂直方向上陡峭而在水平方向上平緩,那麼使用SGD來進行損失函數最小化時的收斂軌跡是怎樣的? A:在比較平緩的方向上行進緩慢,而在陡峭方向上則會不停震盪,如下圖所示
相關文章
相關標籤/搜索