On the difficulty of training Recurrent Neural Networks

1 摘要 關於正確訓練循環神經網絡有兩個常見的問題,梯度消失和梯度爆炸。 在本文中,我們試圖通過從分析,幾何和動態系統的角度探索這些問題來提高對潛在問題的理解。 我們的分析被用來證明一個簡單而有效的解決方案。 我們提出梯度範數裁剪策略來處理爆炸梯度和消失梯度問題的軟約束。 我們驗證了我們的假設,並在實驗部分提出瞭解決方案。 2.前言 RNN網絡的結構與標準多層感知器的結構類似,區別在於我們允許隱藏
相關文章
相關標籤/搜索