clip gradient

算法步驟如下。 首先設置一個梯度閾值:clip_gradient 在後向傳播中求出各參數的梯度,這裏我們不直接使用梯度進去參數更新,我們求這些梯度的l2範數 然後比較梯度的l2範數||g||與clip_gradient的大小 如果前者大,求縮放因子clip_gradient/||g||, 由縮放因子可以看出梯度越大,則縮放因子越小,這樣便很好地控制了梯度的範圍 最後將梯度乘上縮放因子便得到最後所需
相關文章
相關標籤/搜索