【翻譯】Sklearn 與 TensorFlow 機器學習實用指南 —— 第11章 訓練深層神經網絡(中)...

梯度裁剪 減少梯度爆炸問題的一種常用技術是在反向傳播過程中簡單地剪切梯度,使它們不超過某個閾值(這對於遞歸神經網絡是非常有用的;參見第 14 章)。 這就是所謂的梯度裁剪。一般來說,人們更喜歡批量標準化,但瞭解梯度裁剪以及如何實現它仍然是有用的。 在 TensorFlow 中,優化器的minimize()函數負責計算梯度並應用它們,所以您必須首先調用優化器的compute_gradients()方
相關文章
相關標籤/搜索