[論文筆記] [2010] Understanding the Difficulty of Training Deep Feedforward Neural Networks

這篇論文主要是從參數初始化和激活函數的角度,通過實驗中觀察網絡在訓練迭代時每層的 activations 和 gradients,來探究訓練深層模型困難的原因,並提出了一種新的參數初始化方式來加快模型訓練時的收斂。 Effect of Activation Functions and Saturation During Training sigmoid 激活函數在之前已經被證明會減慢學習的速度,如
相關文章
相關標籤/搜索