softmax-交叉熵損失函數的求導計算推導

目前大部分多分類任務對最後一層的輸出做softmax,然後使用交叉熵作爲損失函數,再對loss求導反向傳播來更新w,經過多輪訓練得到訓練好的w,這就是模型。 我相信許多剛入門的machine learninger只是知道該這麼用,但是不明白爲什麼這樣就可以更新w了,下面推導最後一層的導數 最後一層的第i個輸出是    其對應的softmax處理是 輸入公式太麻煩了  還是手寫的吧  這裏的aj 和
相關文章
相關標籤/搜索