chapter-7-訓練神經網絡(下)

更好的優化方法 當損失在一些方向敏感,而在其他方向不敏感的話,更新線效率會很低。另一個問題是在鞍點或局部最低點時,會讓函數卡住。還有一個問題是SGD的隨機性:當處在噪音環境下時,SGD的隨機性會是使計算速度大幅下降。 爲了改善上述問題,我們引入了動量項: 它是保持一個時間變化的速度,並且將梯度估計添加到這個速度上,然後在這個速度的方向上步進。 在速度上還有一個表示摩擦係數的超參數來對速度進行衰減。
相關文章
相關標籤/搜索