獨家連載 | 梯度消失和梯度爆炸

4.6 梯度消失與梯度爆炸 4.6.1 梯度消失 根據上文BP算法中的推導,我們從公式4.44,4.45,4.46中可以知道,權值的調整ΔW是跟學習信號δ相關的。同時我們從4.41,4.42,4.43中可以知道在學習信號δ表達式中存在f ’ (x)。也就是說激活函數的導數會影響學習信號δ的值,而學習信號δ的值會影響權值調整ΔW的值。那麼激活函數的值越大,ΔW的值就越大;激活函數的值越小,ΔW的值也
相關文章
相關標籤/搜索