Salesforce提出SWATS:訓練中自動由Adam切換爲SGD而實現更好的泛化性能

在 ICLR 2018 的高分論文中,有研究者表明因爲歷史梯度平方的滑動平均值,Adam 等算法並不能收斂到最優解,因此它在泛化誤差上可能要比 SGD 等方法差。最近 Salesforce 的研究者提出了一種轉換機制,他們試圖讓算法在訓練過程中自動由 Adam 無縫轉換到 SGD 而保留兩種優化算法的優良屬性。 隨機梯度下降(SGD)已經成爲了深度神經網絡最常用的訓練算法之一。儘管它非常簡單,但在
相關文章
相關標籤/搜索