梯度爆炸的解決方法: clip gradient

轉自:https://blog.csdn.net/u010814042/article/details/76154391 1.梯度爆炸的影響 在一個只有一個隱藏節點的網絡中,損失函數和權值w偏置b構成error surface,其中有一堵牆,如下所示     損失函數每次迭代都是每次一小步,但是當遇到這堵牆時,在牆上的某點計算梯度,梯度會瞬間增大,指向某處不理想的位置。如果我們使用縮放,可以把誤導
相關文章
相關標籤/搜索