詳解深度學習中的經常使用優化算法

說到優化算法,入門級必從SGD學起,老司機則會告訴你更好的還有AdaGrad / AdaDelta,或者直接無腦用Adam。但是看看學術界的最新paper,卻發現一衆大神還在用着入門級的SGD,最多加個Moment或者Nesterov ,還常常會黑一下Adam。好比 UC Berkeley的一篇論文就在Conclusion中寫道:算法 Despite the fact that our exper
相關文章
相關標籤/搜索