機器學習面試第2彈 交叉熵損失vs.平方損失+ 合頁損失函數HingleLoss+ 梯度下降函數的比較GD,SGD,Momentum,Adam

  1. 爲什麼要用交叉熵損失代替平方損失 爲什麼不用二次方代價函數 權值​和偏置​的偏導數爲​ 求導過程 偏導數受激活函數的導數影響,sigmoid函數導數在輸出接近0和1時非常小,會導致一些實例在剛開始訓練時學習得非常慢。  爲什麼要用交叉熵 求導結果 這個梯度公式與激活函數對z的偏導數無關,只與激活函數作用於z後的輸出與期望的輸出y有關, 從這個梯度公式可以看出輸出和期待的輸出相差越大,梯度
相關文章
相關標籤/搜索