梯度爆炸與梯度消失的原因以及解決方法,局部極小值問題以及學習率問題(對SGD的改進)

梯度爆炸與梯度消失的原因: 簡單地說,根據鏈式法則,如果每一層神經元對上一層的輸出的偏導乘上權重結果都小於1的話( ),那麼即使這個結果是0.99,在經過足夠多層傳播之後,誤差對輸入層的偏導會趨於0( )。下面是數學推導推導。 假設網絡輸出層中的第 個神經元輸出爲,而要學習的目標爲 。這裏的 表示時序,與輸入無關,可以理解爲網絡的第 層。 若採用平方誤差作爲損失函數,第 個輸出神經元對應的損失爲
相關文章
相關標籤/搜索