Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

時間 2021-01-02

原文原文鏈接

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 1 Introduction 深度學習極大地提高了視覺、語言和許多其他領域的藝術水平。隨機梯度下降（SGD）被證明是訓練深層網絡的一種有效方法，SGD變量如動量（Sutskever et al.，2013）和Ada

>>阅读原文<<