Adam，Radma

時間 2021-01-15

原文原文鏈接

Adam 通過改變計算順序，算法1的效率可以提高，將最後三行替換爲： Radma 我們主要的貢獻有兩方面，我們識別了自適應學習率的方差問題，並給出了warm-up的理論依據。結果表明，收斂性問題是由於模型訓練初期自適應學習速率變化過大造成的。另一方面，我們提出了一種新的Adam變體，它不僅顯著的修正了方差，而且理論上是健全的，而且比啓發式warm-up相比也更好。我們在圖2上觀察到，在不進行wa