LR爲什麼不可以用MSE作爲損失函數

原因總結: MSE 會有梯度消失現象 MSE 的導數非凸函數,求解最優解困難 證明: 1. 梯度消失公式證明: 令 ,記爲 。 只關注其中單項的公式,並簡化可得: 可見, 當 h 趨近於 0 時或者趨近於 1 時,該 Loss 的導數都會趨近爲 0,從而造成梯度消失現象。 2. 非凸函數公式證明 關注 其二階導數,可以得出其二階導數矩陣即 Hessian 矩陣不是正定矩陣。 該導數是非凸函數,不是
相關文章
相關標籤/搜索