【機器學習基礎】交叉熵（cross entropy）損失函數是凸函數嗎？

時間 2019-12-01

標籤機器學習基礎交叉 cross entropy 損失函數简体版

原文原文鏈接

之因此會有這個問題，是由於在學習 logistic regression 時，《統計機器學習》一書說它的負對數似然函數是凸函數，而 logistic regression 的負對數似然函數（negative log likelihood）和交叉熵函數（cross entropy）具備同樣的形式。html

先給出結論，logistic regression 時，cross entropy 是凸的，但多層神經網絡時，cross entropy 不是凸的。網絡

logistic regression 時，cross entropy 是凸的：

Why is the error function minimized in logistic regression convex? -- Deepak Roy Chittajallu機器學習

多層神經網絡（MLP）時，cross entropy 不是凸的：（確定不是凸的啊，否則調參哪來這麼多問題）

Cost function of neural network is non-convex? - Cross Validated函數

cross entropy 損失函數：(\(\hat{y}\) 爲預測值，\(y\) 爲真實值)

\[-y \log \hat{y}-(1-y) \log (1-\hat{y})\]學習

直觀解釋

簡單點的解釋是，logistic regression 時，證實兩個凸函數相加仍是凸函數，由於 \(y\) 不是 0 就是 1，那就要證實此時 \(- \log \hat{y}\) 和 \(- \log (1-\hat{y})\) 關於 \(w\) 都是凸函數，也就是證實 Hessian 矩陣半正定。證實看上述連接。spa

而 MLP 時，給出直觀解釋是，在神經網絡的某一隱藏層交換兩個神經元的權重，最後輸出層獲得的值不會變，這就說明若是有一個最優解，那交換神經元權重後，解仍然是最優的，那麼此時就存在兩個最優解了，那就不是凸函數了。htm