原文:https://blog.csdn.net/jasonzzj/article/details/52017438算法
本文只討論Logistic迴歸的交叉熵,對Softmax迴歸的交叉熵相似。 函數
以及J(θ)對J(θ)對參數θ的偏導數(用於諸如梯度降低法等優化算法的參數更新),以下: 優化
假設函數(hypothesis function)定義爲: atom
由於Logistic迴歸問題就是0/1的二分類問題,能夠有 spa
如今,咱們不考慮「熵」的概念,根據下面的說明,從簡單直觀角度理解,就能夠獲得咱們想要的損失函數:咱們將機率取對數,其單調性不變,有:.net
那麼對於第i組樣本,假設函數表徵正確的組合對數機率爲: 3d
其中,I{y(i)=1}和I{y(i)=0}爲示性函數(indicative function),簡單理解爲{ }內條件成立時取1,不然取0。xml
由以上表徵正確的機率含義可知,咱們但願其值越大,模型對數據的表達能力越好。而咱們在參數更新或衡量模型優劣時是須要一個能充分反映模型表現偏差的損失函數(Loss function)或者代價函數(Cost function)的,並且咱們但願損失函數越小越好。由這兩個矛盾,那麼咱們不妨領代價函數爲上述組合對數機率的相反數:
blog
這步須要用到一些簡單的對數運算公式,這裏先以編號形式給出,下面推導過程當中使用特地說明時都會在該步驟下腳標標出相應的公式編號,以保證推導的連貫性。 io
在這裏涉及的求導均爲矩陣、向量的導數(矩陣微商)。交叉熵損失函數爲:
其中,
由此,獲得 :
此次再計算J(θ)對第j個參數份量θj求偏導:
這就是交叉熵對參數的導數: