clip gradient

時間 2021-07-10

原文原文鏈接

算法步驟如下。首先設置一個梯度閾值：clip_gradient 在後向傳播中求出各參數的梯度，這裏我們不直接使用梯度進去參數更新，我們求這些梯度的l2範數然後比較梯度的l2範數||g||與clip_gradient的大小如果前者大，求縮放因子clip_gradient/||g||,　由縮放因子可以看出梯度越大，則縮放因子越小，這樣便很好地控制了梯度的範圍最後將梯度乘上縮放因子便得到最後所需