《Can increasing depth serve to accelerate optimization?》閱讀筆記

主要內容: 網絡越深,優化越難(此即梯度消失或梯度爆炸問題),但是有時候增加深度反而會加速網絡優化。同時提出端到端更新規則,證明深度網絡過度的參數化(overparameterization)也可能是件好事。 lp l p 迴歸 以標量線性迴歸做實驗,發現對一個網絡進行過參數化操作,並沒有改變網絡的表現力,但卻生成了非凸目標函數。而過度參數化不僅僅加速了梯度下降,而且其加速效果還優於兩個著名的梯度
相關文章
相關標籤/搜索