理解RNN梯度消失和彌散以及LSTM爲什麼能解決

根據RNN的BPTT推導,我們可以得到下面的式子: 而又有: 因此,每一個Sj對Sj-1的偏導都等於tanh‘(..)*W 注意到:tanh的梯度最大隻能是1,而更多時候都是趨近於0的飽和狀態,當求導得到的jacobian矩陣存在一些元素趨近於0,多個矩陣相乘,會使得梯度很快消失。這時候有人會問,爲什麼不將tanh換成ReLU呢?這樣不就可以解決梯度消失了嗎? 確實,換成ReLU在一定程度上可以解
相關文章
相關標籤/搜索