機器學習——風險函數

1.損失函數vs風險函數

損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。html

2.風險函數定義

風險函數(risk function)=指望風險(expected Risk=指望損失(expected loss),能夠認爲是平均意義下的損失。函數

例如:下面的對數損失函數中,損失函數的指望,就是理論上模型f(X)關於聯合分佈P(X,Y)的平均意義下的損失。學習

風險函數有兩種,不考慮正則項的是經驗風險(Empirical Risk),考慮過擬合問題,加上正則項的是結構風險(Structural Risk)。優化

監督學習的兩種基本策略:經驗風險最小化(ERM)和結構風險最小化(SRM)。spa

這樣,監督學習問題就成了經驗風險或結構風險函數的最優化問題(1.11)和(1.13)。經驗或結構風險函數是最優化的目標函數。.net

(1)三個風險的關係

指望風險是理想,是白月光,是可望不可求的,只能用經驗風險去近似,而結構風險是經驗風險的升級版。code

爲何能夠用經驗風險估計指望風險呢?htm

根據大數定律,當樣本容量N趨於無窮時,經驗風險Remp(f)趨於指望風險Rexp(f)。因此一個很天然的想法是用經驗風險估計指望風險。blog

可是,因爲現實中的訓練樣本數目有限,甚至很小,因此用經驗風險估計指望風險經常並不理想,要對經驗風險進行必定的矯正。這就關係到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。get

(2)指望風險(expected Risk)【全局,理想】

指望風險對全部樣本預測錯誤程度的均值,基於全部樣本點損失函數最小化。指望風險是全局最優,是理想化的不可求的。

指望風險=指望損失=風險函數,也就是損失L(Y,f(X))的數學指望,在理論上,能夠代入指望公式EX=∑xi·Pi=∫x·f(x)dx,也就是E(L(Y,f(X))=∫L(y,f(x))·f(x,y) dxdy。

\large R_{exp}=E_{p}[L(Y,f(X))]=\int_{X\times Y}^{ }L(y,f(x)))\cdot P(x,y) dxdy

可是因爲聯合機率密度函數f(x,y)不知道,因此此路不通,只能另尋他路,也就是根據經驗找近似。【這個矛盾,能夠在文末的一張圖上體現】

(3)經驗風險(Empirical Risk)【局部,現實】

經驗風險,基於訓練集全部樣本點損失函數的平均最小化。經驗風險是局部最優,是現實的可求的。

經驗風險=經驗損失=代價函數

給定一個數據集,模型f(x)關於訓練集的平均損失被稱爲經驗風險(empirical risk)或經驗損失(empirical loss)。

這個公式的用意很明顯,就是模型關於訓練集的平均損失(每一個樣本的損失加起來,而後平均一下)。在實際中用的時候,咱們也就很天然的這麼用了。

(4)結構風險(Structural Risk)

結構風險,就是在經驗風險上加上一個正則化項(regularizer)或者叫作罰項(penalty term),即

3.經驗風險最小化和結構風險最小化

(1)經驗風險最小化&結構風險最小化

經驗風險最小化(empirical risk minimization,ERM),就是認爲經驗風險最小的模型是最優的模型,用公式表示:


這個理論很符合人的直觀理解。由於在訓練集上面的經驗風險最小,也就是平均損失越小,意味着模型獲得結果和「真實值」儘量接近,代表模型越好。

 

當樣本容量不大的時候,經驗風險最小化模型容易產生「過擬合」的問題。爲了「減緩」過擬合問題,就提出了結構風險最小的理論。

結構風險最小化structural risk minimization,SRM)就是認爲,結構風險最小的模型是最優模型,公式表示:

 

(2)經驗風險最小化的例子:極大似然估計(maximum likelihood estimation)。

模型,條件機率分佈;

損失函數,對數損失函數;

  經驗風險最小化等價於極大似然估計。

(2)結構風險最小化的例子:貝葉斯最大後驗機率估計。

模型,條件機率分佈;

損失函數,對數損失函數;

模型複雜度,由先驗機率表示;

結構風險=經驗風險+正則項=後驗機率+先驗機率;

先驗機率不變,結構風險最小化,等價於最大後驗機率估計。

 

4.風險函數與對數損失函數

 

 

 

參考:

李航《統計學習方法》

https://blog.csdn.net/xierhacker/article/details/53366723?utm_source=copy

(structural risk minimization,SRM)

相關文章
相關標籤/搜索