梯度中心化,一行代碼加速訓練並提升泛化能力

來源 | 曉飛的算法工程筆記 優化器(Optimizer)對於深度神經網絡在大型數據集上的訓練是十分重要的,如SGD和SGDM,優化器的目標有兩個:加速訓練過程和提高模型的泛化能力。目前,很多工作研究如何提高如SGD等優化器的性能,如克服訓練中的梯度消失和梯度爆炸問題,有效的trick有權值初始化、**函數、梯度裁剪以及自適應學習率等。而一些工作則從統計的角度對權值和特徵值進行標準化來讓訓練更穩定
相關文章
相關標籤/搜索