詳解深度學習中的經常使用優化算法

時間 2019-12-04

標籤詳解深度學習經常使用優化算法简体版

原文原文鏈接

說到優化算法，入門級必從SGD學起，老司機則會告訴你更好的還有AdaGrad / AdaDelta，或者直接無腦用Adam。但是看看學術界的最新paper，卻發現一衆大神還在用着入門級的SGD，最多加個Moment或者Nesterov ，還常常會黑一下Adam。好比 UC Berkeley的一篇論文就在Conclusion中寫道：算法 Despite the fact that our exper

>>阅读原文<<