第一次提出殘差結構,主要解決兩個問題網絡
以下圖,原本要學習H(x),如今轉換爲F(x)+x,兩者效果相同,可是優化難度降低,而且由於多了一個x,使得求導時總有1,避免了梯度消失問題。函數
F(X)+X的公式能夠經過在前饋網絡中作一個「快捷鏈接」來實現(如圖2) ,快捷鏈接跳過一個或多個層。在咱們的用例中,快捷鏈接簡單的執行自身映射,它們的輸出被添加到疊加層的輸出中。自身快捷鏈接既不會添加額外的參數也不會增長計算複雜度。整個網絡依然能夠用SGD+反向傳播來作端到端的訓練性能
若是添加的層能夠以恆等的方式被構造爲自身映射,一個加深的模型的訓練偏差必定會不大於較淺的對應模型。退化問題代表,求解過程當中在使多個非線性層逼近自身映射時有困難。而用殘差的方法重構它,若是自身映射達到最佳的,則求解可能僅僅是更新多個非線性層的權值向零去接近自身映射。學習
殘差函數F的形式是靈活的,本文的實驗包括了F爲2層或3層的狀況,雖然更多的層也是能夠的,但若是隻有一個層(公式1)會等價於一個線性層,y = W1x + x,這樣一來就沒有可見的優點了。優化