GRU(Gated Recurrent Unit)初探

在處理序列任務的時候,由於RNN存在梯度消失和梯度爆炸的原因: 梯度消失:RNN梯度消失是因爲激活函數tanh函數的倒數在0到1之間,反向傳播時更新前面時刻的參數時,當參數W初始化爲小於1的數,則多個(tanh函數’ * W)相乘,將導致求得的偏導極小(小於1的數連乘),從而導致梯度消失。 梯度爆炸:當參數初始化爲足夠大,使得tanh函數的倒數乘以W大於1,則將導致偏導極大(大於1的數連乘),從而
相關文章
相關標籤/搜索