各種優化算法總結(區別及聯繫)SGD Momentum NAG Aadagrad RMSprop AadaDelta Adam Nadam

文章是最近整理的一些深度學習優化算法總結,具體參考文獻見文章末尾: 剛剛開始接觸優化算法,林林總總,認識總是很淺薄,但是當你拿過來看的時候,發現從剛剛開始的SGD到現在的adam、Nadam等,原理上其實是相通的。 文章目錄 算法基本框架 梯度下降 BGD SGD MBGD 一階動量 指數加權移動平均值 Momentum NAG 二階動量(自適應學習率) AdaGrad RMSProp AdaDe
相關文章
相關標籤/搜索