從動力學角度看優化算法SGD:一些小啓示

做者丨蘇劍林javascript 單位丨廣州火焰信息科技有限公司css 研究方向丨NLP,神經網絡html 我的主頁丨kexue.fmjava 在本文中,咱們來關心優化算法 SGD(stochastic gradient descent,隨機梯度降低),包括帶 Momentum 和 Nesterov 版本的。對於 SGD,咱們一般會關心的幾個問題是: 算法 SGD 爲何有效? 網絡 SGD 的 b
相關文章
相關標籤/搜索