resnet2 resNext

時間 2021-01-12

原文原文鏈接

resnet2 我們發現恆等映射h(XL)=XL在所有的變量實驗中，誤差減少最快，訓練損失最小，而scaling，gating，和1x1卷積的skip 連接都會導致更高的訓練損失，這些實驗表明，保持一條‘乾淨’的信息路徑（灰色箭頭的路徑）有助於簡化優化工作。爲了構造f(yl) = yl，我們考慮了pre-activation。圖1表示了這個結構比原始結構更容易訓練和推廣。上圖中，a到c的變化，