交叉熵損失函數的優點

利用一些飽和激活函數的如sigmoid激活時,假如利用均方誤差損失,那麼損失函數向最後一層的權重傳遞梯度時,梯度公式爲 可見梯度與最後一層的激活函數的導數成正比,因此,如果起始輸出值比較大,也即激活函數的導數比較小,那麼整個梯度幅度更新幅度都比較小,收斂時間很長。若一開始輸出值比較小那麼更新速度比較好,收斂也快,因此不穩定。且與輸出值a與真實值的誤差成正比。 再看損失函數改成交叉熵損失時: 此時損
相關文章
相關標籤/搜索