神經網絡訓練的一些建議（Batch Normalization）

時間 2020-12-30

原文原文鏈接

數據的歸一化先放上宏毅大神的圖，說明一下我們爲什麼要做數據的歸一化說明：x2的變化比較大，使用w2方向上就顯得比較陡峭（梯度），學習率就不能設置得過大。 Batch Normalization 爲什麼要有batch normalization 主要是避免internal covariate shift，如圖所示，輸出上下波動太大（如同第二個人）的話會影響整個模型的訓練，第二個人告訴第二個人話筒

>>阅读原文<<