對於梯度消失和梯度爆炸的理解

一、梯度消失、梯度爆炸產生的原因    說白了,其實就是矩陣的高次冪導致的。在多層神經網絡中,影響因素主要是權值和激活函數的偏導數。 1.1 前饋網絡   假設存在一個網絡結構如圖:   其表達式爲:     若要對於w1求梯度,根據鏈式求導法則,得到的解爲:     通常,若使用的激活函數爲sigmoid函數,其導數:   這樣可以看到,如果我們使用標準化初始w,那麼各個層次的相乘都是0-1之間
相關文章
相關標籤/搜索