【模型性能1-泛化原因分析】On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

轉載 https://blog.csdn.net/zhangboshen/article/details/72853121 這是一篇發表在ICLR2017上面的文章。 這篇文章探究了深度學習中一個普遍存在的問題——使用大的batchsize訓練網絡會導致網絡的泛化性能下降(文中稱之爲Generalization Gap)。文中給出了Generalization Gap現象的解釋:大的batchsi
相關文章
相關標籤/搜索