梯度爆炸的解決辦法:clip gradient

1.梯度爆炸的影響 在一個只有一個隱藏節點的網絡中,損失函數和權值w偏置b構成error surface,其中有一堵牆,如下所示   損失函數每次迭代都是每次一小步,但是當遇到這堵牆時,在牆上的某點計算梯度,梯度會瞬間增大,指向某處不理想的位置。如果我們使用縮放,可以把誤導控制在可接受範圍內,如虛線箭頭所示 2.解決梯度爆炸問題的方法 通常會使用一種叫」clip gradients 「的方法. 它
相關文章
相關標籤/搜索