爲什麼使用交叉熵損失函數

•使用極大似然原理導出交叉熵損失函數減輕了爲每個模型設計損失函數的負擔,選擇了模型p(y|x)就明確了損失函數logp(y|x) •損失函數的梯度必須有足夠大的預測性,這樣才能很好的指導算法的學習。很多輸出單元都會包含一個指數函數,當變量取絕對值非常大的負值時函數會變得飽和(函數變得很「平」),函數梯度變得很小,而負的對數似然能夠抵消輸出單元中的指數效果。(下面的推導過程說明了使用交叉熵損失函數可
相關文章
相關標籤/搜索