softmax求導函數
softmax層的輸出爲spa
其中,表示第L層第j個神經元的輸入,
表示第L層第j個神經元的輸出,e表示天然常數。3d
如今求對
的導數,blog
若是j=i,it
1io
若是ji,function
2im
cross-entropy求導d3
loss function爲db
對softmax層的輸入求導,以下
label smoothing
對於ground truth爲one-hot的狀況,使用模型去擬合這樣的函數具備兩個問題:首先,沒法保證模型的泛化能力,容易致使過擬合; 其次,全機率和零機率將鼓勵所屬類別和非所屬類別之間的差距會被儘量拉大,由於模型太過相信本身的預測了。
爲了解決這一問題,使得模型沒有那麼確定,提出了label smoothing。
原ground truth爲,添加一個與樣本無關的分佈
,獲得
用表示預測結果,則loss function爲
label smoothing是論文《Rethinking the Inception Architecture for Computer Vision》中提出的,文中代表,使用label smoothing後結果有必定程度的提高。在論文中,,k表示類別,
。