訓練分類器爲什麼要用cross entropy loss而不能用mean square error loss?

對於多分類的標籤(即教師信號),從本質上看,通過One-hot操作,就是把具體的標籤(Label)空間,變換到一個概率測度空間(設爲 p),如[1,0,0](表示它是第一個品類)。可以這樣理解這個概率,如果標籤分類的標量輸出爲1(即概率爲100%),其它值爲0(即概率爲0%)。 而對於多分類問題,在Softmax函數的「加工」下,它的實際輸出值就是一個概率向量,如[0.96, 0.04, 0],設
相關文章
相關標籤/搜索