ICLR2020滿分論文 | 爲什麼梯度裁剪能加速模型訓練？

時間 2021-01-01

原文原文鏈接

一隻小狐狸帶你解鎖煉丹術&NLP 祕籍作者：蘇劍林（來自追一科技，人稱「蘇神」）前言需要許多時間步計算的循環神經網絡，如LSTM、GRU，往往存在梯度爆炸的問題。其目標函數可能存在懸崖一樣斜率較大的區域，這是由於時間步上幾個較大的權重相乘導致的。當參數接近這樣的懸崖區域時，如果更新梯度不足夠小，很有可能就會直接跳過這樣的懸崖結構，然後被彈射到非常遠的地方。梯度裁剪（gradient cli

>>阅读原文<<