如何解決梯度消失和梯度爆炸?

何爲梯度消失,梯度爆炸? 目前優化神經網絡的方法都是基於反向傳播的思想,即根據損失函數計算的誤差通過梯度反向傳播的方式,指導深度網絡權值的更新優化。這樣做是有一定原因的,首先,深層網絡由許多非線性層堆疊而來,每一層非線性層都可以視爲是一個非線性函數 f(x) f ( x ) (非線性來自於非線性激活函數),因此整個深度網絡可以視爲是一個複合的非線性多元函數 : F(x)=fn(...f3(f2(f
相關文章
相關標籤/搜索