Adam的原理

時間 2021-01-02

標籤機器學習简体版

原文原文鏈接

Adam是從2個算法脫胎而來的：AdaGrad和RMSProp，它集合了2個算法的主要優點，同時也做了自己的一些創新，大概有這麼幾個賣點：計算高效，方便實現，內存使用也很少。更新步長和梯度大小無關，只和alpha、beta_1、beta_2有關係。並且由它們決定步長的理論上限。對目標函數沒有平穩要求，即loss function可以隨着時間變化能較好的處理噪音樣本，並且天然具有退火效果能

>>阅读原文<<