爲什麼使用交叉熵作爲損失函數？

時間 2021-01-15

原文原文鏈接

如果概括性地回答這個問題，我們其實是希望得到最大似然(maximum likelihood)，使得模型的預測分佈與數據的實際分佈儘可能相近。而最大化log似然等同於最小化負log似然，最小化負log似然等價於最小化KL散度(相對熵)，KL散度裏包含有隻與數據集相關而與模型無關的 l o g p ^ d a t a log\hat{p}_{data} logp^data，這一部分對每個特定數據集

>>阅读原文<<