4.機器學習——統計學習三要素與最大似然估計、最大後驗機率估計及L一、L2正則化

時間 2019-11-10

原文原文鏈接

1.前言

以前我一直對於「最大似然估計」犯迷糊，今天在看了陶輕鬆、憶臻、nebulaf91等人的博客以及李航老師的《統計學習方法》後，豁然開朗，因而在此記下一些心得體會。算法

「最大似然估計」（Maximum Likelihood Estimation, MLE）與「最大後驗機率估計」（Maximum A Posteriori Estimation,MAP）的歷史可謂源遠流長，這兩種經典的方法也成爲機器學習領域的基礎被普遍應用。機器學習

有趣的是，這兩種方法還牽扯到「頻率學派」與「貝葉斯學派」的派別之爭，前者認爲一件事情發生機率的推斷必須依靠數聽說話，即認爲世界是肯定的，咱們能夠經過重複的大量的數據統計而使結果逼近真實的狀況。後者認爲世界是不肯定的，咱們須要對這個世界作出一個預判，而後經過數據的統計去不斷地修正這個預判，最終使的機率分佈可以最優化的解釋這個世界。函數

2.統計學習三要素

前面講到的MLE與MAP，實際上是統計模型優化求解中衆多步驟中的一步。而統計模型是統計學習三要素之一。學習

統計學習（statistical learning）是利用計算機技術基於數據構建機率統計模型並對數據進行預測及分析的一門學科，即傳統意義上的統計機器學習。測試

統計學習的三要素爲：模型（model）、策略（strategy）、算法（algorithm）。優化

輸入空間或者特徵空間與輸出空間之間全部可能的映射狀況成爲假設空間，而映射之因此存在是由於統計學習假設輸入值與輸出值是根據聯合機率密度P(X,Y)獨立同分布產生的。而模型就是假設空間中的一種特殊狀況，固然假設空間中的模型有無數種。atom

策略就是一種在無限的模型當中找出一種符合當前數據分佈的模型的方法，目標是從假設空間中尋找出最優模型。經過定義損失函數或者代價函數來達到這一目的。損失函數是模型預測值f(X)和真值Y的非負實值函數，L(f(X), Y)。spa

對於監督學習來講，經常使用的損失函數有0 1損失函數、絕對值損失函數、對數損失函數、平方損失函數等。.net

算法既是根據已有的策略如何最優化咱們的模型，把統計學習問題總結爲最優化問題。xml

3.最大似然估計與最大後驗機率

在上面提到的統計學習三要素之一的策略當中，咱們已經找到了衡量模型預測結果的方式，即經過損失函數。經過統計損失函數的指望值並使其最小，能夠達到最優化函數的左右。

損失函數的指望以下：

其中P（x,y）是輸入值X和輸出值Y的聯合機率密度分佈，咱們並不清楚，因此這是指望風險，即理論上真實的損失函數風險值。

指望風險咱們沒法獲知，可是咱們能夠經過大量實驗得到不少損失函數值，對於求平都可以獲得經驗風險。根據大數定理，當損失函數值趨近於無窮時，經驗風險等價於指望風險。

當模型是條件機率分佈，損失函數是對數損失函數時，此時的經驗風險就是最大似然估計。

最大似然估計就是咱們根據已有數據的特徵，來推斷出現該特徵的模型參數，目標是使參數的取值使得該數據的分佈最符合這種特徵。

形象點說，一罐子球，裏面有黑白兩色，咱們有放回的取出100個，其中70個是白球，那麼咱們根據最大似然估計推斷該罐子中70%是白球，由於這種分佈狀況下咱們最有可能取出70個白球（在100個球中）。

最大似然估計是求參數 $θ$

$θ$

這在模型防止過擬閤中也起到了很關鍵的做用。

L一、L2正則化

模型在訓練數據表現很好，在測試數據表示不好爲過擬合（overfitting）。若是訓練數據表現不好則爲欠擬合。以下圖所示：

欠擬合能夠增長模型複雜度，增長模型訓練次數等方法解決，這裏主要講過擬合。

過擬合就是爲了是模型在訓練數據上表示很好而強行增長了模型的複雜度，使得其普適能力差。

爲了解決過擬合，能夠經過添加懲罰項來解決。此時稱爲結構風險，而模型的最後變成使結構風險最小化問題。

其中J(f)爲模型的複雜度。

而當模型的複雜度爲模型的先驗機率，損失函數是對數損失函數時，此時的結構風險最小化問題即變爲最大後驗機率估計問題。

而模型的複雜度用什麼來衡量的，簡單來講既是模型參數的多少，參數越多，模型越複雜，反之越簡單。而衡量模型參數多少能夠經過0範數、1範數及2範數來解決。

0範數指非零向量個數。1範數指絕對值之和。2範數指一般意義上的模。

使0範數最小及實現模型參數最小。而人們發如今求解過程當中0範數求解難度較高，而1範數和0範數能夠實現稀疏，1因具備比L0更好的優化求解特性而被普遍應用。L2範數是指向量各元素的平方和而後求平方根。咱們讓L2範數的正則項||W||2最小，可使得W的每一個元素都很小，都接近於0，但與L1範數不一樣，它不會讓它等於0，而是接近於0，這裏是有很大的區別的哦；因此你們比起1範數，更鐘愛2範數。

正則化——即便模型結構風險最小的過程。

L1正則化即便L1範數的正則項最小。

L2正則化即便L2範數的正則項最小。