深度學習第三課隨筆

梯度下降 最簡單的梯度下降格式 x+=−learning_rate∗dx 動量(Momentum)更新 在普通版本中,梯度直接影響位置。而在這個版本的更新中,物理觀點建議梯度只是影響速度,然後速度再影響位置: 動量更新 v=mu∗v−learning_rate∗dx x+=v Nesterov動量與普通動量有些許不同,最近變得比較流行。在理論上對於凸函數它能得到更好的收斂,在實踐中也確實比標準動量
相關文章
相關標籤/搜索