從修正Adam到理解泛化:概覽2017年深度學習優化算法的最新研究進展

Sebastian Ruder 的這篇博客總結了 2017 年深度學習優化算法的最新進展,他主要從Adam算法的侷限性與提升方法、學習率衰減方案、超參數搜索、怎樣學習優化和理解泛化性能等角度向我們展示近來研究者對最優化方法的思考與探索。 深度學習終究是尋找一個使泛化性能足夠好的(損失函數)極小值過程,它並不一定要求能搜索到非凸函數的最小值點,而需要模型的損失能得到顯著性地降低,以收斂到一個可接受的
相關文章
相關標籤/搜索