爲何使用交叉熵做爲損失函數?

若是歸納性地回答這個問題,咱們實際上是但願獲得最大似然(maximum likelihood),使得模型的預測分佈與數據的實際分佈儘量相近。而最大化log似然等同於最小化負log似然,最小化負log似然等價於最小化KL散度(相對熵),KL散度裏包含有隻與數據集相關而與模型無關的 l o g p ^ d a t a log\hat{p}_{data} logp^​data​,這一部分對每一個特定數據
相關文章
相關標籤/搜索