神經網絡梯度消失或爆炸

神經網絡梯度的消失在於多層的求偏導後,值越來越小,導致梯度非常接近於0.  造成這個現象的主要原因在於激活函數: 從上圖我們可以看到常用激活函數Sigmoid, Tanh, 以及Relu 的倒數的取值範圍都在 0~1 之間,所以在多層神經網絡以後這個梯度會出現消失現象: 比如說 每一層的梯度都是0.8, 在經過 50層以後 0.8**50 = 0.0000143. 所以整個模型的學習進程會非常慢。
相關文章
相關標籤/搜索