部分主流優化函數講解(SGD,AdaGrad,RMSProp,Adam)

部分主流優化函數講解(SGD,AdaGrad,RMSProp,Adam) 參考自(https://blog.csdn.net/weixin_42398658/article/details/84525917) 之所以出現了這麼多的優化函數就是因爲病態曲率的存在,也就是梯度下降容易進入鞍點。 這樣的話我們就很容易想到牛頓法了,一階導數指出的是運動方向的問題,二階導數指出的就是加速度的問題。但是由於牛
相關文章
相關標籤/搜索