關於梯度消失/爆炸理解

深度神經網絡中的梯度不穩定性,前面層中的梯度或會消失,或會爆炸。 1. 梯度不穩定問題   根本原因在於前面層上的梯度是來自於後面層上梯度的乘積。當存在過多的層次時,就出現了內在本質上的不穩定場景。                         梯度消失     梯度爆炸 所以可以使用Relu()函數   f(x) = max(0,x)
相關文章
相關標籤/搜索