LSTM相比一般RNN的優勢

LSTM只能避免RNN的梯度消失(gradient vanishing),但是不能對抗梯度爆炸問題(Exploding Gradient)。 梯度膨脹(gradient explosion)不是個嚴重的問題,一般靠裁剪後的優化算法即可解決,比如gradient clipping(如果梯度的範數大於某個給定值,將梯度同比收縮)。 梯度剪裁的方法一般有兩種: 1.一種是當梯度的某個維度絕對值大於某個上
相關文章
相關標籤/搜索