深度學習基礎----殘差網絡

爲什麼要提出殘差網絡? 深度網絡不是越深越好。會出現梯度消失或者梯度爆炸,網絡訓練難度加大。 何凱明做了實驗,淺層網絡比深層網絡的訓練誤差和測試誤差都要小。 梯度消失:反向傳播的時候,越到前面(淺層網絡),梯度越小。原因之一是sigmoid函數兩邊很平緩,即兩邊梯度衰減是很快的。 殘差幹了啥? shortcut: 不經過權重和激活函數 解釋: x是前面模塊的輸出,F(x)是後面模塊的輸出。則下面一
相關文章
相關標籤/搜索