fast-r-cnn論文中個爲什麼使用smooth_L1 (x),smooth_l1是什麼?

先把論文中這部分描述摘抄過來,如下圖所示:   假設我們不適用smooth_L1,考慮L2函數   其梯度爲 那麼會出現一個原文描述的問題,when the regression targets are unbounded,既x很大的時候,會發生梯度爆炸,再考慮L1函數 此時會出現另外一個問題,當x變化很小的時候,梯度依舊很大,此時函數很有可能無法收斂(除非你控制學習率降低的更多,但是這樣手工智能
相關文章
相關標籤/搜索