損失函數

時間 2019-11-17

標籤損失函數简体版

原文原文鏈接

機器學習中的損失函數（着重比較：hinge loss vs softmax loss）

1. 損失函數

損失函數（Loss function）是用來估量你模型的預測值 $f (x)$ 算法

θ * = arg min θ 1 N \sum i = 1 N L ( y i , f ( x i ; θ ) ) + λ Φ ( θ )

其中，前面的均值函數表示的是經驗風險函數，

L

2. 經常使用損失函數

常見的損失偏差有五種：
1. 鉸鏈損失（Hinge Loss）：主要用於支持向量機（SVM）中；
2. 互熵損失（Cross Entropy Loss，Softmax Loss ）：用於Logistic 迴歸與Softmax 分類中；
3. 平方損失（Square Loss）：主要是最小二乘法（OLS）中；
4. 指數損失（Exponential Loss）：主要用於Adaboost 集成學習算法中；
5. 其餘損失（如0-1損失，絕對值損失）編程

2.1 Hinge loss

Hinge loss 的叫法來源於其損失函數的圖形，爲一個折線，通用的函數表達式爲：安全

L (m i) = m a x (0, 1 - m i (w))

L

在機器學習中，Hing 能夠用來解間距最大化的問題，最有表明性的就是SVM 問題，最初的SVM 優化函數以下： markdown

a r g m i n w, ζ 1 2 | | w | | 2 + C \sum i ζ i

L

ζ i \geq 1 - y i w T x i

L

J (w) = 1 2 | | w | | 2 + C \sum i m a x ( 0 , 1 -

L

2.2 Softmax Loss

有些人可能以爲邏輯迴歸的損失函數就是平方損失，其實並非。平方損失函數能夠經過線性迴歸在假設樣本是高斯分佈的條件下推導獲得，而邏輯迴歸獲得的並非平方損失。在邏輯迴歸的推導中，它假設樣本服從伯努利分佈（0-1分佈），而後求得知足該分佈的似然函數，接着取對數求極值等等。而邏輯迴歸並無求似然函數的極值，而是把極大化當作是一種思想，進而推導出它的經驗風險函數爲：最小化負的似然函數（即 $max F (y, f (x)) \to min - F (y, f (x)))$ cors

log損失函數的標準形式：機器學習

L (Y, P (Y | X)) = - log P (Y | X)

L

邏輯迴歸的 $P (Y = y | x)$ 函數

其中 post

h θ (x) = 1 1 + exp ( - f ( x ) )

2.3 Squared Loss

最小二乘法是線性迴歸的一種，OLS將問題轉化成了一個凸優化問題。在線性迴歸中，它假設樣本和噪聲都服從高斯分佈（中心極限定理），最後經過極大似然估計（MLE）能夠推導出最小二乘式子。最小二乘的基本原則是：最優擬合直線應該是使各點到迴歸直線的距離和最小的直線，即平方和最小。學習

平方損失（Square loss）的標準形式以下：優化

L (Y, f (X)) = (Y - f (X)) 2

當樣本個數爲 $n$

L (Y, f (X)) = \sum i = 1 n (Y - f (X)) 2

L

在實際應用中，咱們使用均方差（MSE）做爲一項衡量指標，公式以下：

M S E = 1 n \sum i = 1 n ( Y i ~ - Y i ) 2

2.4 Exponentially Loss

損失函數的標準形式是：

L (Y, f (X)) = exp [- Y f (X)]

L

f m (x) = f m - 1 (x) + α m G m (x)

L

arg min α, G = \sum i = 1 N exp [- y i (f m - 1 (x i) + α G (x i))

L

L (Y, f (X)) = 1 2 \sum i = 1 n exp [ - y i f ( x I ) ]

L

2.5 其餘損失

0-1 損失函數

L (Y, f (X)) = {01

L

L (Y, f (X)) = | Y - f (X) |

上述幾種損失函數比較的可視化圖像以下：

3. Hinge loss 與 Softmax loss

SVM和Softmax分類器是最經常使用的兩個分類器。

SVM將輸出 $f (x_{i}, W)$
與SVM 不一樣，Softmax 分類器能夠理解爲邏輯迴歸分類器面對多個分類的通常話概括，其輸出(歸一化的分類機率)更加直觀,且能夠從機率上解釋。

在Softmax分類器中, 函數映射 $f (x_{i}, W)$

L i = - log (e f y i \sum j e f j )

L

L i = - f y i + log \sum j f j

$f_{j}$

機率論解釋:

P (y i | x i, W) = e f y i \sum j e f j

解釋爲給定數據 $x_{i}$

實際操做注意事項——數值穩定: 編程實現softmax函數計算的時候,中間項 $e^{f_{y_{i}}}$

P (y i | x i, W) = C e f y i C \sum j e f j =

C的值可自由選擇,不會影響計算結果,經過這個技巧能夠提升計算中的數值穩定性.一般將C設爲:

log C = - max f j

該技巧就是將向量f中的數值進行平移,使得最大值爲0。

準確地說，SVM分類器使用的是鉸鏈損失（hinge loss），有時候又被稱爲最大邊界損失（max-margin loss）。Softmax分類器使用的是交叉熵損失（corss-entropy loss）。Softmax分類器的命名是從softmax函數那裏得來的，softmax函數將原始分類評分變成正的歸一化數值，全部數值和爲1，這樣處理後交叉熵損失才能應用。

Example：圖像識別

針對給出的圖像，SVM分類器可能給你的是一個 $[- 2.85, 0.86, 0.28]$