神經網絡訓練的一些建議(Batch Normalization)

數據的歸一化 先放上宏毅大神的圖,說明一下我們爲什麼要做數據的歸一化 說明:x2的變化比較大,使用w2方向上就顯得比較陡峭(梯度),學習率就不能設置得過大。 Batch Normalization 爲什麼要有batch normalization 主要是避免internal covariate shift,如圖所示,輸出上下波動太大(如同第二個人)的話會影響整個模型的訓練,第二個人告訴第二個人話筒
相關文章
相關標籤/搜索