RELU激活函數作用

梯度消失現象:在某些神經網絡中,從後向前看,前面層梯度越來越小,後面的層比前面的層學習速率高。 梯度消失原因: sigmoid函數導數圖像 導數最大爲0.25<1 權重初始值通常使用一個高斯分佈所以|w|<1,所以 wjσ′(zj)<0.25 ,根據鏈式法則計算梯度越來越小。由於層數的增加,多個項相乘,勢必就會導致不穩定的情況。 sigmoid激活函數的缺點: 1.計算量大,反向傳播求梯度誤差時,
相關文章
相關標籤/搜索