L1 loss 與 MSE

---恢復內容開始---函數

今天在訓練時遇到的問題blog

把損失函數由 MSE 改爲 L1 Loss 的時候 Loss 有了明顯的降低ast

之前一直以爲 MSE 相對來講會更好 ,由於求導的話有標籤與結果的差值做爲係數,相差越大梯度越大。 L1 Loss 梯度都是同樣的。im

查了一下,看到了另外一種說法:img

當預測值與目標值相差很大時, 梯度容易爆炸, 由於梯度裏包含了x−t. 因此rgb在Fast RCNN裏提出了SmoothL1Loss.di

 

當差值太大時, 原先L2梯度裏的x−t被替換成了±1, 這樣就避免了梯度爆炸, 也就是它更加健壯.標籤


這。。。。應該就是緣由吧

---恢復內容結束---co

相關文章
相關標籤/搜索