對於ResNet殘差網絡的理解和思考

       增加網絡層數卻導致更大的誤差, 如下圖。 這種deep plain net收斂率十分低下。原因:觀察這張圖可以看出,訓練過程中兩者的下降模式是差不多的,只不過56-layer的圖像更「高」。也就是起點不好:初始化的時候,他需要生成56層隨機數,輸入x在經過那麼多層以後不知道被扭曲成什麼樣了,結果能好嗎?至於隨着訓練次數的增加,還是不能提高準確率,是因爲這個系統太複雜了。每一層微小的變
相關文章
相關標籤/搜索