斯坦福CS224n NLP課程【十一】——GRU及NMT的其他議題

GRU RNN: 直觀上RNN是 1.管理過去對未來造成的影響2.x_t時刻如何影響到了x_t+n的時刻 我們能做的就是獲取隱藏的狀態用矩陣去乘,增加一些東西去處理輸入之後就進入循環 但是這樣下去就導致梯度消失 但是你不能解釋真正發生了什麼 不能看到t和t+n在數據上的聯繫 也可能是設置參數導致梯度的消失  可能會導致梯度消失或者梯度爆炸 這些都是樸素 transition function 導致
相關文章
相關標籤/搜索