一文讀懂:梯度消失(爆炸)及其解決方法

梯度消失問題和梯度爆炸問題,總的來說可以稱爲梯度不穩定問題。 【要背住的知識】:用ReLU代替Sigmoid,用BN層,用殘差結構解決梯度消失問題。梯度爆炸問題的話,可以用正則化來限制。sigmoid的導數是【0,0.25】. 出現原因 兩者出現原因都是因爲鏈式法則。當模型的層數過多的時候,計算梯度的時候就會出現非常多的乘積項。用下面這個例子來理解: 這是每層只有1個神經元的例子,每個神經元的激活
相關文章
相關標籤/搜索