從動力學角度看優化算法:從SGD到動量加速

來源:https://kexue.fm/archives/5655 目錄 梯度下降 訓練目標分析 GD與ODE 隨機梯度下降 從GD到SGD 從SGD到SDE 結果啓發 動量加速  從一階到二階 GD+Momentum 如何加速? Nesterov動量 Kramers方程 思考回顧   在本文中,我們來關心優化算法 SGD(stochastic gradient descent,隨機梯度下降),包
相關文章
相關標籤/搜索