論文筆記:Deep Residual Learning

轉處:https://www.cnblogs.com/jermmyhsu/p/8228007.html 之前提到,深度神經網絡在訓練中容易遇到梯度消失/爆炸的問題,這個問題產生的根源詳見之前的讀書筆記。在 Batch Normalization 中,我們將輸入數據由激活函數的收斂區調整到梯度較大的區域,在一定程度上緩解了這種問題。不過,當網絡的層數急劇增加時,BP 算法中導數的累乘效應還是很容易讓
相關文章
相關標籤/搜索