步長:最優化問題中的叫法;網絡
學習速率:神經網絡中的叫法;函數
梯度更新的方式:學習
爲步長(學習率)。優化
其中有必要說一點的是表示的是當前實際的輸出,y表示的是其類標。blog
當輸入爲x時,目標函數表示爲一個線性函數的形式爲:。其中每個x1,x2,...表示的是維度。內存
1. 梯度降低:對於的更新是全部樣本都參與的,那麼獲得的梯度是一個比較標準的值,一次更新的幅度也會比較大,可是樣本多的時候,而且樣本的維度也是很大的,會下降運算的速度。此外,對電腦內存等也是一個巨大的考驗。如今在實際中不多使用。固然,當樣本比較少的時候,是能夠用的。深度學習
2. 隨機梯度降低:對是隨機的選取一個樣本,經過這個小的的梯度來更新總體的,固然是不太準確的,可是重在速度快,當訓練的迭代次數比較多的時候,也會去的很好的效果。不過,注意陷入局部最優解。神經網絡
3. 小批量梯度降低:對是隨機的選取一個小的batch,這個方法在深度學習中使用的比較多。方法