【深度學習】一文讀懂機器學習經常使用損失函數（Loss Function）

時間 2019-11-29

標籤深度學習一文讀懂機器學習經常使用損失函數 loss function 简体版

原文原文鏈接

最近太忙已經很久沒有寫博客了，今天整理分享一篇關於損失函數的文章吧，之前對損失函數的理解不夠深刻，沒有真正理解每一個損失函數的特色以及應用範圍，若是文中有任何錯誤，請各位朋友指教，謝謝~git

　　損失函數（loss function）是用來估量模型的預測值f(x)與真實值Y的不一致程度，它是一個非負實值函數,一般使用L(Y, f(x))來表示，損失函數越小，模型的魯棒性就越好。損失函數是經驗風險函數的核心部分，也是結構風險函數重要組成部分。模型的結構風險函數包括了經驗風險項和正則項，一般能夠表示成以下式子：算法

　　其中，前面的均值函數表示的是經驗風險函數，L表明的是損失函數，後面的 $Φ$ 機器學習

$Φ$ 函數

$Φ$ 性能

1、LogLoss對數損失函數（邏輯迴歸，交叉熵損失）

　　有些人可能以爲邏輯迴歸的損失函數就是平方損失，其實並非。平方損失函數能夠經過線性迴歸在假設樣本是高斯分佈的條件下推導獲得，而邏輯迴歸獲得的並非平方損失。在邏輯迴歸的推導中，它假設樣本服從伯努利分佈（0-1分佈），而後求得知足該分佈的似然函數，接着取對數求極值等等。而邏輯迴歸並無求似然函數的極值，而是把極大化當作是一種思想，進而推導出它的經驗風險函數爲：最小化負的似然函數（即max F(y, f(x)) —> min -F(y, f(x)))。從損失函數的視角來看，它就成了log損失函數了。學習

log損失函數的標準形式：測試

　　剛剛說到，取對數是爲了方便計算極大似然估計，由於在MLE（最大似然估計）中，直接求導比較困難，因此一般都是先取對數再求導找極值點。損失函數L(Y, P(Y|X))表達的是樣本X在分類Y的狀況下，使機率P(Y|X)達到最大值（換言之，就是利用已知的樣本分佈，找到最有可能（即最大機率）致使這種分佈的參數值；或者說什麼樣的參數才能使咱們觀測到目前這組數據的機率最大）。由於log函數是單調遞增的，因此logP(Y|X)也會達到最大值，所以在前面加上負號以後，最大化P(Y|X)就等價於最小化L了。優化

　　邏輯迴歸的P(Y=y|x)表達式以下（爲了將類別標籤y統一爲1和0，下面將表達式分開表示）：編碼

　　將它帶入到上式，經過推導能夠獲得logistic的損失函數表達式，以下：atom

　　邏輯迴歸最後獲得的目標式子以下：

　　上面是針對二分類而言的。這裏須要解釋一下：之因此有人認爲邏輯迴歸是平方損失，是由於在使用梯度降低來求最優解的時候，它的迭代式子與平方損失求導後的式子很是類似，從而給人一種直觀上的錯覺。

這裏有個PDF能夠參考一下：Lecture 6: logistic regression.pdf.

　　注意：softmax使用的即爲交叉熵損失函數，binary_cossentropy爲二分類交叉熵損失，categorical_crossentropy爲多分類交叉熵損失，當使用多分類交叉熵損失函數時，標籤應該爲多分類模式，即便用one-hot編碼的向量。

2、平方損失函數（最小二乘法, Ordinary Least Squares ）

　　最小二乘法是線性迴歸的一種，最小二乘法（OLS）將問題轉化成了一個凸優化問題。在線性迴歸中，它假設樣本和噪聲都服從高斯分佈（爲何假設成高斯分佈呢？其實這裏隱藏了一個小知識點，就是中心極限定理，能夠參考【central limit theorem】），最後經過極大似然估計（MLE）能夠推導出最小二乘式子。最小二乘的基本原則是：最優擬合直線應該是使各點到迴歸直線的距離和最小的直線，即平方和最小。換言之，OLS是基於距離的，而這個距離就是咱們用的最多的歐幾里得距離。爲何它會選擇使用歐式距離做爲偏差度量呢（即Mean squared error， MSE），主要有如下幾個緣由：

簡單，計算方便；
歐氏距離是一種很好的類似性度量標準；
在不一樣的表示域變換後特徵性質不變。

平方損失（Square loss）的標準形式以下：

當樣本個數爲n時，此時的損失函數變爲：

Y-f(X)表示的是殘差，整個式子表示的是殘差的平方和，而咱們的目的就是最小化這個目標函數值（注：該式子未加入正則項），也就是最小化殘差的平方和（residual sum of squares，RSS）。

而在實際應用中，一般會使用均方差（MSE）做爲一項衡量指標，公式以下：

上面提到了線性迴歸，這裏額外補充一句，咱們一般說的線性有兩種狀況，一種是因變量y是自變量x的線性函數，一種是因變量y是參數 $α$

3、指數損失函數（Adaboost）

學過Adaboost算法的人都知道，它是前向分步加法算法的特例，是一個加和模型，損失函數就是指數函數。在Adaboost中，通過m此迭代以後，能夠獲得 $f_{m} (x)$

Adaboost每次迭代時的目的是爲了找到最小化下列式子時的參數 $α$

而指數損失函數（exp-loss）的標準形式以下

能夠看出，Adaboost的目標式子就是指數損失，在給定n個樣本的狀況下，Adaboost的損失函數爲：

關於Adaboost的推導，能夠參考Wikipedia：AdaBoost或者《統計學習方法》P145.

4、Hinge損失函數（SVM）

在機器學習算法中，hinge損失函數和SVM是息息相關的。在線性支持向量機中，最優化問題能夠等價於下列式子：

下面來對式子作個變形，令：

因而，原式就變成了：

如若取 $λ = \frac{1}{2 C}$

$λ = \frac{1}{2 C}$

前半部分中的 $l$

Hinge 損失函數的標準形式

$α$

更多內容，參考Hinge-loss。

補充一下：在libsvm中一共有4中核函數能夠選擇，對應的是-t參數分別是：

0-線性核；
1-多項式核；
2-RBF核；
3-sigmoid核。

5、其它損失函數

除了以上這幾種損失函數，經常使用的還有：

0-1損失函數

絕對值損失函數

下面來看看幾種損失函數的可視化圖像，對着圖看看橫座標，看看縱座標，再看看每條線都表示什麼損失函數，多看幾回好好消化消化。

6、Keras / TensorFlow 中經常使用 Cost Function 總結

mean_squared_error或mse
mean_absolute_error或mae
mean_absolute_percentage_error或mape
mean_squared_logarithmic_error或msle
squared_hinge
hinge
categorical_hinge
binary_crossentropy（亦稱做對數損失，logloss）
logcosh
categorical_crossentropy：亦稱做多類的對數損失，注意使用該目標函數時，須要將標籤轉化爲形如(nb_samples, nb_classes)的二值序列
sparse_categorical_crossentrop：如上，但接受稀疏標籤。注意，使用該函數時仍然須要你的標籤與輸出值的維度相同，你可能須要在標籤數據上增長一個維度：np.expand_dims(y,-1)
kullback_leibler_divergence:從預測值機率分佈Q到真值機率分佈P的信息增益,用以度量兩個分佈的差別.
poisson：即(predictions - targets * log(predictions))的均值
cosine_proximity：即預測值與真實標籤的餘弦距離平均值的相反數