深度學習_深度學習基礎知識_RAdam詳解

SGD收斂較好,但是需要耗費很多時間。 Adam收斂快,但是容易陷入局部解中。 Adam的核心思想是用指數滑動平均去估計梯度每個分量的一階矩(動量)和二階矩(自適應學習率),並用二階矩去normalize一階矩,得到每一步的更新量: 其中, m t m_{t} mt​是一階矩(動量), v t v_{t} vt​是二階矩(自適應學習率), η \eta η是學習率, c t c_{t} ct​是偏
相關文章
相關標籤/搜索