Batch Normalization: Accelerating Deep Network Training b y Reducing Internal Covariate Shift

時間 2021-01-02

原文原文鏈接

挖個墳，最近纔看了batch normalize的原始paper，是Christian Szegedy（googlenet作者）的工作，已經在實際工作裏用的很多了，再看這個paper還是能感受到作者很深厚的理論基礎以及實現能力。 Motivation：深度學習剛出來的時候我們就會遇到這樣的問題，如果學習率比較大那麼訓練會不收斂或者直接nan飛掉，而且初始化參數的分佈也十分重要，設置的不好就會導致

>>阅读原文<<