【模型性能1-泛化原因分析】On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

時間 2021-01-02

標籤機器學習简体版

原文原文鏈接

轉載 https://blog.csdn.net/zhangboshen/article/details/72853121 這是一篇發表在ICLR2017上面的文章。這篇文章探究了深度學習中一個普遍存在的問題——使用大的batchsize訓練網絡會導致網絡的泛化性能下降（文中稱之爲Generalization Gap）。文中給出了Generalization Gap現象的解釋：大的batchsi

>>阅读原文<<