關於CNN、RNN中的梯度爆炸/梯度彌散

梯度爆炸(gradient explosion) 與 梯度彌散(gradient vanishing) 是神經網絡研究中常可能遇到的問題,主要體現在訓練不收斂,誤差、權重波動大,以及出現NaN值,本文以CNN與RNN爲例,說明梯度爆炸/彌散的產生原因 CNN CNN神經網絡的簡易圖如下: 用 f f f表示卷積函數,忽略pooling層,則每一層的運算可以表示爲 x n = f ( W n x n
相關文章
相關標籤/搜索