機器學習概念區分(一)性能度量 vs 損失函數

1.機器學習的三要素就是:表示,評估和優化。

(1)表示:

樣本空間映射到一個合適的特徵空間,通常地,咱們更青睞於這樣的表示是低維度的,是更加稀疏交互的,同時也但願是相互獨立的。【從大量特徵挑出好的特徵,降維】html

讓機器來學習怎樣表示,就是表示學習。機器學習

(2)評估:

模型在數據上表現量化形式,咱們選取合適的函數來表示什麼樣子的模型是好的性能度量就是評估。【用來評價模型好壞的函數】ide

(3)優化:

前兩步都完成後,最後要作的就是優化,就是對評估函數進行求解,找出最合適的解,來肯定最終的模型。函數

2.性能度量

性能度量(performance measure)是關於真實值和預測值的關係。真實值與預測值越接近,或者說真實的分佈與預測分佈越接近,性能越好。性能

(1)迴歸問題的性能度量:

均方偏差(mean squared error,MSE),均方根偏差(RMSE),平均絕對偏差(MAE),均方對數偏差(MSLE),均方根對數偏差(RMSLE),學習

絕對偏差(absolute Loss),決定係數(coefficient of determination )以及Huber Loss。測試

(2)分類問題的性能度量:

準確率,錯誤率,優化

獲得混淆矩陣,進一步獲得查準率(precision)、查全率(recall)以及P-R曲線和ROC曲線。spa

 

3.損失函數

(1)損失函數、代價函數、目標函數

損失函數(Loss Function)

    是定義在單個樣本上的,是指一個樣本的偏差,度量模型一次預測的好壞。.net

    \LARGE L(Y,f(X))

代價函數(Cost Function)

    又叫成本函數,經驗風險(empirical risk)【局部】基於訓練集全部樣本損失函數的平均最小化。經驗風險是局部最優,是現實的可求的。

    僅僅經驗風險最小化是不行的,這樣容易致使過擬合,咱們不只要讓經驗風險最小化,還要考慮模型複雜度,讓結構風險最小化。

    \LARGE \frac{1}{n}\sum_{i=1}^{n}L(Y,f(X))               [公式] 

目標函數(Object Function)

    是指最終須要優化的函數,就是結構風險=經驗風險+正則項(懲罰項)。【按照李航《統計xx》,結構風險=目標函數(多數)】

    \large R_{srm}=\frac{1}{n}\sum_{i=1}^{n}L(y_{i},f(x_{i})))+\lambda J(f)

    正則項:定義了一個函數 [公式] ,這個函數專門用來度量模型的複雜度,在機器學習中也叫正則化(regularization)。經常使用的有 [公式] , [公式] 範數。

目標函數和代價函數區別(通俗

    目標函數是最大化或者最小化,而代價函數/經驗風險是最小化。

(2)指望風險、經驗風險、結構風險

(3)廣義上的損失函數

我的理解:廣義上,或者人們習慣上,人們所說的損失函數實際上是「代價函數」。或者提到上述三者中的任一個都叫損失函數。

損失函數用於衡量模型擬合的程度,越小就表明擬合得越好。

(4)損失函數知足條件

損失函數必須連續

 

(5)爲何既要有損失函數,也有要性能評估呢?

損失函數(Loss function)也與性能度量相似,真實值與預測值差異越大,Loss越大,咱們的優化的目標就是減少Loss。從評估的角度來講,損失函數和性能度量所起到的做用是相同的,那麼咱們爲何既要有損失函數,也有要性能評估呢?

事實上,常見的均方偏差既能夠被看成性能度量,同時也是迴歸問題的損失函數。

但在更多的問題中,咱們會發現,咱們每每會爲了減少模型的錯誤率並不直接優化錯誤率而是會優化另外一個函數

好比在logistic迴歸中,咱們會優化對數似然,在SVM中,咱們會優化hinge loss,在adaboost中會優化指數損失

(6)損失函數:學習vs評估

【與(5)應該是同一個問題,評估中的損失函數就是(5)的性能評估,學習中的損失函數就是(5)的損失函數】

統計學習的目的,模型對未知數據都能有很好的預測能力。
當損失函數給定時,基於損失函數的模型的訓練偏差(training error)和模型的測試偏差(test error)就天然成爲學習方法評估的標準。
統計學習中採用的損失函數未必是評估時使用的損失函數。二者一致是比較理想的。

 

 

 

參考:

https://baijiahao.baidu.com/s?id=1611678624768980723&wfr=spider&for=pc

https://blog.csdn.net/Vici__/article/details/101927918?utm_medium=distribute.pc_relevant.none-task-blog-baidulandingword-6&spm=1001.2101.3001.4242

相關文章
相關標籤/搜索