adam和adamW

Adam的缺點和改進 Adam有很多的優點,但是在很多數據集上的最好效果還是用SGD with Momentum細調出來的。可見Adam的泛化性並不如SGD with Momentum。https://arxiV.org/pdf/1711.05101.pdf 中提出其中一個重要原因就是Adam中L2正則化項並不像在SGD中那麼有效。 L2正則和Weight Decay在Adam這種自適應學習率算法
相關文章
相關標籤/搜索