殘差網絡(Residual Network)

一、背景 1)梯度消失問題 我們發現很深的網絡層,由於參數初始化一般更靠近0,這樣在訓練的過程中更新淺層網絡的參數時,很容易隨着網絡的深入而導致梯度消失,淺層的參數無法更新。 可以看到,假設現在需要更新b1,w2,w3,w4參數因爲隨機初始化偏向於0,通過鏈式求導我們會發現,w1w2w3相乘會得到更加接近於0的數,那麼所求的這個b1的梯度就接近於0,也就產生了梯度消失的現象。 2)網絡退化問題 舉
相關文章
相關標籤/搜索