Batch Normalization: Accelerating Deep Network Training b y Reducing Internal Covariate Shift

挖個墳,最近纔看了batch normalize的原始paper,是Christian Szegedy(googlenet作者)的工作,已經在實際工作裏用的很多了,再看這個paper還是能感受到作者很深厚的理論基礎以及實現能力。 Motivation: 深度學習剛出來的時候我們就會遇到這樣的問題,如果學習率比較大那麼訓練會不收斂或者直接nan飛掉,而且初始化參數的分佈也十分重要,設置的不好就會導致
相關文章
相關標籤/搜索