最近太忙已經很久沒有寫博客了,今天整理分享一篇關於損失函數的文章吧,之前對損失函數的理解不夠深刻,沒有真正理解每一個損失函數的特色以及應用範圍,若是文中有任何錯誤,請各位朋友指教,謝謝~git
損失函數(loss function)是用來估量模型的預測值f(x)與真實值Y的不一致程度,它是一個非負實值函數,一般使用L(Y, f(x))來表示,損失函數越小,模型的魯棒性就越好。損失函數是經驗風險函數的核心部分,也是結構風險函數重要組成部分。模型的結構風險函數包括了經驗風險項和正則項,一般能夠表示成以下式子:算法
其中,前面的均值函數表示的是經驗風險函數,L表明的是損失函數,後面的Φ是正則化項(regularizer)或者叫懲罰項(penalty term),它能夠是L1,也能夠是L2,或者其餘的正則函數。整個式子表示的意思是找到使目標函數最小時的θ值。下面主要列出幾種常見的損失函數。機器學習
理解:損失函數旨在表示出logit和label的差別程度,不一樣的損失函數有不一樣的表示意義,也就是在最小化損失函數過程當中,logit逼近label的方式不一樣,獲得的結果可能也不一樣。函數
通常狀況下,softmax和sigmoid使用交叉熵損失(logloss),hingeloss是SVM推導出的,hingeloss的輸入使用原始logit便可。性能
有些人可能以爲邏輯迴歸的損失函數就是平方損失,其實並非。平方損失函數能夠經過線性迴歸在假設樣本是高斯分佈的條件下推導獲得,而邏輯迴歸獲得的並非平方損失。在邏輯迴歸的推導中,它假設樣本服從伯努利分佈(0-1分佈),而後求得知足該分佈的似然函數,接着取對數求極值等等。而邏輯迴歸並無求似然函數的極值,而是把極大化當作是一種思想,進而推導出它的經驗風險函數爲:最小化負的似然函數(即max F(y, f(x)) —> min -F(y, f(x)))。從損失函數的視角來看,它就成了log損失函數了。學習
log損失函數的標準形式:測試
剛剛說到,取對數是爲了方便計算極大似然估計,由於在MLE(最大似然估計)中,直接求導比較困難,因此一般都是先取對數再求導找極值點。損失函數L(Y, P(Y|X))表達的是樣本X在分類Y的狀況下,使機率P(Y|X)達到最大值(換言之,就是利用已知的樣本分佈,找到最有可能(即最大機率)致使這種分佈的參數值;或者說什麼樣的參數才能使咱們觀測到目前這組數據的機率最大)。由於log函數是單調遞增的,因此logP(Y|X)也會達到最大值,所以在前面加上負號以後,最大化P(Y|X)就等價於最小化L了。優化
邏輯迴歸的P(Y=y|x)表達式以下(爲了將類別標籤y統一爲1和0,下面將表達式分開表示):編碼
將它帶入到上式,經過推導能夠獲得logistic的損失函數表達式,以下:atom
邏輯迴歸最後獲得的目標式子以下:
上面是針對二分類而言的。這裏須要解釋一下:之因此有人認爲邏輯迴歸是平方損失,是由於在使用梯度降低來求最優解的時候,它的迭代式子與平方損失求導後的式子很是類似,從而給人一種直觀上的錯覺。
這裏有個PDF能夠參考一下:Lecture 6: logistic regression.pdf.
注意:softmax使用的即爲交叉熵損失函數,binary_cossentropy爲二分類交叉熵損失,categorical_crossentropy爲多分類交叉熵損失,當使用多分類交叉熵損失函數時,標籤應該爲多分類模式,即便用one-hot編碼的向量。
最小二乘法是線性迴歸的一種,最小二乘法(OLS)將問題轉化成了一個凸優化問題。在線性迴歸中,它假設樣本和噪聲都服從高斯分佈(爲何假設成高斯分佈呢?其實這裏隱藏了一個小知識點,就是中心極限定理,能夠參考【central limit theorem】),最後經過極大似然估計(MLE)能夠推導出最小二乘式子。最小二乘的基本原則是:最優擬合直線應該是使各點到迴歸直線的距離和最小的直線,即平方和最小。換言之,OLS是基於距離的,而這個距離就是咱們用的最多的歐幾里得距離。爲何它會選擇使用歐式距離做爲偏差度量呢(即Mean squared error, MSE),主要有如下幾個緣由:
平方損失(Square loss)的標準形式以下:
當樣本個數爲n時,此時的損失函數變爲:
Y-f(X)
表示的是殘差,整個式子表示的是殘差的平方和,而咱們的目的就是最小化這個目標函數值(注:該式子未加入正則項),也就是最小化殘差的平方和(residual sum of squares,RSS)。
而在實際應用中,一般會使用均方差(MSE)做爲一項衡量指標,公式以下:
上面提到了線性迴歸,這裏額外補充一句,咱們一般說的線性有兩種狀況,一種是因變量y是自變量x的線性函數,一種是因變量y是參數α的線性函數。在機器學習中,一般指的都是後一種狀況。
學過Adaboost算法的人都知道,它是前向分步加法算法的特例,是一個加和模型,損失函數就是指數函數。在Adaboost中,通過m此迭代以後,能夠獲得fm(x):
Adaboost每次迭代時的目的是爲了找到最小化下列式子時的參數α 和G:
而指數損失函數(exp-loss)的標準形式以下
能夠看出,Adaboost的目標式子就是指數損失,在給定n個樣本的狀況下,Adaboost的損失函數爲:
關於Adaboost的推導,能夠參考Wikipedia:AdaBoost或者《統計學習方法》P145.
在機器學習算法中,hinge損失函數和SVM是息息相關的。在線性支持向量機中,最優化問題能夠等價於下列式子:
下面來對式子作個變形,令:
因而,原式就變成了:
如若取λ=1/(2C),式子就能夠表示成:
能夠看出,該式子與下式很是類似:
前半部分中的 l 就是hinge損失函數,然後面至關於L2正則項。
Hinge 損失函數的標準形式
能夠看出,當|y|>=1時,L(y)=0。
更多內容,參考Hinge-loss。
補充一下:在libsvm中一共有4中核函數能夠選擇,對應的是-t
參數分別是:
除了以上這幾種損失函數,經常使用的還有:
0-1損失函數
絕對值損失函數
下面來看看幾種損失函數的可視化圖像,對着圖看看橫座標,看看縱座標,再看看每條線都表示什麼損失函數,多看幾回好好消化消化。
mean_squared_error或mse
mean_absolute_error或mae
mean_absolute_percentage_error或mape
mean_squared_logarithmic_error或msle
squared_hinge
hinge
categorical_hinge
binary_crossentropy(亦稱做對數損失,logloss)
logcosh
categorical_crossentropy:亦稱做多類的對數損失,注意使用該目標函數時,須要將標籤轉化爲形如(nb_samples, nb_classes)
的二值序列
sparse_categorical_crossentrop:如上,但接受稀疏標籤。注意,使用該函數時仍然須要你的標籤與輸出值的維度相同,你可能須要在標籤數據上增長一個維度:np.expand_dims(y,-1)
kullback_leibler_divergence:從預測值機率分佈Q到真值機率分佈P的信息增益,用以度量兩個分佈的差別.
poisson:即(predictions - targets * log(predictions))
的均值
cosine_proximity:即預測值與真實標籤的餘弦距離平均值的相反數
須要記住的是:參數越多,模型越複雜,而越複雜的模型越容易過擬合。過擬合就是說模型在訓練數據上的效果遠遠好於在測試集上的性能。此時能夠考慮正則化,經過設置正則項前面的hyper parameter,來權衡損失函數和正則項,減少參數規模,達到模型簡化的目的,從而使模型具備更好的泛化能力。