Stanford 深度自然語言處理 學習筆記(八)

概率越大,越有可能是正確的表達。   RNN   關於梯度 當t-k足夠大且βWβh比1小或比1大時,指數(βWβh)t−k很容易爲較小或較大的值。由於詞距較遠的交叉熵誤差通過t-k來評估。當梯度消失時,在迭代t中詞距較遠的詞對於預測下一個詞的貢獻度將會逐漸下降。  在實驗過程中,一旦梯度值增長很大,就會很容易探測到其引起的溢出(如:無窮與非數值);這就是梯度爆炸問題。然而,當梯度值接近於零時。對
相關文章
相關標籤/搜索