理解RNN梯度消失和彌散以及LSTM爲什麼能解決

時間 2021-01-12

原文原文鏈接

根據RNN的BPTT推導，我們可以得到下面的式子：而又有：因此，每一個Sj對Sj-1的偏導都等於tanh‘(..)*W 注意到：tanh的梯度最大隻能是1，而更多時候都是趨近於0的飽和狀態，當求導得到的jacobian矩陣存在一些元素趨近於0，多個矩陣相乘，會使得梯度很快消失。這時候有人會問，爲什麼不將tanh換成ReLU呢？這樣不就可以解決梯度消失了嗎？確實，換成ReLU在一定程度上可以解

>>阅读原文<<