《Can increasing depth serve to accelerate optimization?》閱讀筆記

時間 2021-01-11

原文原文鏈接

主要內容：網絡越深，優化越難（此即梯度消失或梯度爆炸問題），但是有時候增加深度反而會加速網絡優化。同時提出端到端更新規則，證明深度網絡過度的參數化（overparameterization）也可能是件好事。 lp l p 迴歸以標量線性迴歸做實驗，發現對一個網絡進行過參數化操作，並沒有改變網絡的表現力，但卻生成了非凸目標函數。而過度參數化不僅僅加速了梯度下降，而且其加速效果還優於兩個著名的梯度