梯度消失或者梯度爆炸

爲什麼會出現梯度消失或者梯度爆炸? 在bp的鏈式求導過程中,連乘第二部分是sigmoid的導數,bp的推導過程.note 對於sigmoid函數: 其導數爲:通過簡單求導變換就可以得到,範圍在0-0.25   對於多層的神經網絡,連乘中還包含w權值, 如果bp過程中sigmoid的導數最大也就0.25,而且通常初始化參數一般小於1,所以其中的 就會小於1,當網絡很深時,多個小於1的數相乘最終導致梯
相關文章
相關標籤/搜索