爲什麼使用交叉熵作爲損失函數?

如果概括性地回答這個問題,我們其實是希望得到最大似然(maximum likelihood),使得模型的預測分佈與數據的實際分佈儘可能相近。而最大化log似然等同於最小化負log似然,最小化負log似然等價於最小化KL散度(相對熵),KL散度裏包含有隻與數據集相關而與模型無關的 l o g p ^ d a t a log\hat{p}_{data} logp^​data​,這一部分對每個特定數據集
相關文章
相關標籤/搜索