論文筆記:Deep Residual Learning for Image Recognition

一.簡介 論文一開始就強調了網絡深度非常重要。 但是實驗證實通過簡單的疊加網絡來增加深度並不能提高效果。 原因有兩點: 1.梯度消失和梯度爆炸,阻礙了網絡的收斂。這個問題現在已經通過(normalized initialization 和 intermediate normalization layers方法)得到了很大的解決,10層左右的網絡通過隨機梯度下降可以很好的收斂。 2.當網絡開始收斂,
相關文章
相關標籤/搜索