AdaX:一個比Adam更優秀,帶」長期記憶「的優化器

文 | 蘇劍林(追一科技,人稱蘇神) 美 | 人美心細小謹思密達 來自 | 夕小瑤的賣萌屋 前言 這篇文章簡單介紹一個叫做AdaX的優化器,來自《AdaX: Adaptive Gradient Descent with Exponential Long Term Memory》。介紹這個優化器的原因是它再次印證了之前在《硬核推導Google AdaFactor:一個省顯存的寶藏優化器》一文中提到的
相關文章
相關標籤/搜索