深度學習之 梯度消失與爆炸原因公式推導

如果要求w1的梯度的話,那麼就是 假如激活函數用的sigmod話,那麼如下: 所以 所以導致梯度消失問題 那麼爲什麼換了relu激活函數也會有梯度消失問題呢?因爲乘積中還有另外一部分 這個wj如果有很多w是0到1之間的數,那麼最終還是會導致梯度消失,如果有很多都是大於1的數,那麼就會導致梯度爆炸
相關文章
相關標籤/搜索