softmax求導、cross-entropy求導及label smoothing

softmax求導函數

softmax層的輸出爲spa

其中,表示第L層第j個神經元的輸入,表示第L層第j個神經元的輸出,e表示天然常數。3d

如今求的導數,blog

若是j=i,it

           1io

若是ji,function

  2im

 

cross-entropy求導d3

loss function爲db

softmax層的輸入求導,以下

        

        

         

 

label smoothing

對於ground truth爲one-hot的狀況,使用模型去擬合這樣的函數具備兩個問題:首先,沒法保證模型的泛化能力,容易致使過擬合; 其次,全機率和零機率將鼓勵所屬類別和非所屬類別之間的差距會被儘量拉大,由於模型太過相信本身的預測了。

爲了解決這一問題,使得模型沒有那麼確定,提出了label smoothing。

原ground truth爲,添加一個與樣本無關的分佈,獲得

 

表示預測結果,則loss function爲

label smoothing是論文《Rethinking the Inception Architecture for Computer Vision》中提出的,文中代表,使用label smoothing後結果有必定程度的提高。在論文中,,k表示類別,

相關文章
相關標籤/搜索