手推 梯度消失和梯度爆炸問題

採用 s i g m o i d sigmoid sigmoid 爲激活函數,當反向傳播使用 鏈式法則 的時候會有連乘,就會出現梯度消失。 由於梯度消失現象,會導致靠近輸入層的隱藏層權值更新緩慢或者更新停滯。這就導致在訓練時,只等價於後面幾層的淺層網絡的學習。(因爲推反向傳播的時候纔會用到 鏈式法則,詳細見後面推導) 解決辦法 梯度消失和梯度爆炸本質上是一樣的,都是因爲網絡層數太深而引發的梯度反向
相關文章
相關標籤/搜索