Adam的原理

Adam是從2個算法脫胎而來的:AdaGrad和RMSProp,它集合了2個算法的主要優點,同時也做了自己的一些創新,大概有這麼幾個賣點: 計算高效,方便實現,內存使用也很少。 更新步長和梯度大小無關,只和alpha、beta_1、beta_2有關係。並且由它們決定步長的理論上限。 對目標函數沒有平穩要求,即loss function可以隨着時間變化 能較好的處理噪音樣本,並且天然具有退火效果 能
相關文章
相關標籤/搜索