Logistic Regression爲什麼不用Square Error???

當最後求梯度的時候,如果 f w , b ( x n ) = 1 f_{w,b}(x^{n}) = 1 fw,b​(xn)=1的時候,梯度爲0,正常。但是當 f w , b ( x n ) = 0 f_{w,b}(x^{n}) = 0 fw,b​(xn)=0時,梯度同樣爲0,這樣就不對了,因爲此時的結果是錯誤的,但是梯度爲0卻導致學不到任何東西。 如上圖所示,黑色的爲Cross Entropy,當
相關文章
相關標籤/搜索