對於ResNet殘差網絡的理解和思考

時間 2020-12-30

原文原文鏈接

增加網絡層數卻導致更大的誤差，如下圖。這種deep plain net收斂率十分低下。原因：觀察這張圖可以看出，訓練過程中兩者的下降模式是差不多的，只不過56-layer的圖像更「高」。也就是起點不好：初始化的時候，他需要生成56層隨機數，輸入x在經過那麼多層以後不知道被扭曲成什麼樣了，結果能好嗎？至於隨着訓練次數的增加，還是不能提高準確率，是因爲這個系統太複雜了。每一層微小的變