CS22N 學習筆記(七)Vanishing Gradients and Fancy RNNs

Vanishing Gradients 在一個普通的RNN網絡中,求下列梯度: 根據鏈式法則,可以得到: 如果這些 ∂ h ( i + 1 ) ∂ h ( i ) \frac{\partial h^{(i+1)}}{\partial h^{(i)}} ∂h(i)∂h(i+1)​導數太小就會發生梯度消失問題。 可以經過計算得到: 將其帶入鏈式法則的公式,會得到 W h i − j {W_h^{i-j
相關文章
相關標籤/搜索