統計學習理論的數理基礎1

統計學習(Statistical learning)是目前人工智能領域最爲活躍的一個分支,其理論基礎是統計學習理論(Statistical learning theory,如下有時會簡稱SLT):一種以數理統計爲數學基礎,研究是否能夠以及如何從經驗數據中學習廣泛概念的理論。css

目前諸多機器學習相關的初級書籍中,重點都放在了對各類模型的探討,而對統計學習理論部分,要麼是不涉及,要麼是簡要幾頁草草描述一下,這種不成體系的論述沒法令讀者尤爲是機器學習的初學者對統計學習的基礎理論造成系統化認知。vue

因此我閱讀了一些SLT相關的論文,並對SLT的基礎部分進行了一個系統化學習,這篇文章是我對SLT數理基礎的整理和總結。ios

這篇文章目標是對於統計學習理論進行一個概述,在這個概述中,將始終保持簡潔及易讀,並儘可能將SLT基礎部分的系統脈絡梳理清楚,給出SLT的一些基礎但十分重要的結論。c++

雖然不但願數學公式成爲各位閱讀本文的障礙,可是想要徹底拋棄數學語言,又能夠明確闡述SLT是不可能的,所以文章中會不可避免存在一些相對嚴格的數學描述、公式及證實。讀者只要具備本科工科的數學水平,便可以無障礙閱讀此文。es6

1 統計學習的定義及框架

1.1 目標

咱們先來相對嚴格的描述,統計學習的目標是什麼。web

現設存在如下實體:算法


    集合 ,稱爲輸入空間,集合 ,稱爲輸出空間
    的聯合機率分佈
    的映射, ,其中
    定義在 上的函數 ,其中 表示實數集合

    統計學習的終極目標是找一個映射,使得的指望最小。因此,統計學習本質上是一個最優化問題,用數學語言描述,統計學習的目標找到下面的映射:
    sql

    1.2 最優解示例

    注意假設咱們知道$X$,$Y$,$P$和$L$的具體形式,那麼統計學習則是根本沒必要要的,由於這自己變成了一個數學上的最優化問題,咱們先忽略這個問題,並經過幾個例子,創建對這個理論目標的直觀認識。vim

    例1:爲常數函數mvc

    根據指望的定義可知,此狀況下$L$的指望$E(L(x,y,f))$亦退化爲常函數恆等於0,所以問題變得十分trivial,只要隨便取一個映射,如$f(x)=0$,便是目標映射

    例2:,且已知對於任意<

    此時,輸入和輸出之間的關係是徹底肯定的,不存在隨機性。由$L$的定義可知$L\ge0$,所以只要取$f(x)=x^2$便可令$L$到處爲0,所以指望也天然是0。此時$f(x)=x^2$就是最優解。

    例3:,且已知對於任意,其中,即服從均值爲,方差爲的正態分佈

    這裏和例2惟一的不一樣是,輸出中多了一個隨機變量。此時:

    ,則:

    不能識別此Latex公式:

    \begin{align}
    E(L(x,y,f)) &= E((x^2+\epsilon-x^2-\mu)^2) \\
    &= E((\epsilon-\mu)^2) \\
    &= E(\epsilon^2+\mu^2-2\mu\epsilon) \\
    &= E(\epsilon^2)+E(\mu^2)-2E(\mu)E(\epsilon) \\
    &= E^2(\epsilon)+Var(\epsilon) + \mu^2 - 2\mu^2 \\
    &= \mu^2+\sigma^2+\mu^2-2\mu^2 \\
    &= \sigma^2
    \end{align}


    能夠證實這是的最小值,因此是此時的最優解。
    例4:,當,不然,聯合機率分佈取值以下:
    這是一個離散狀況,咱們如今不經證實給出起最優映射爲,此時的指望爲:

    1.3 通用最優解

    上面舉了幾個在各項條件已知的狀況下,最優映射的例子,能夠看到,隨着$X$,$Y$,$L$,$P$的不一樣,最優解的形式也各不相同。那麼咱們天然會有一個疑問:是否存在一個通用最優解公式,對於任意的$X$,$Y$,$L$,$P$,都可以套用公式獲得最優解?答案是存在。

    可是直接在如此抽象的定義域上討論通用最優解,會使得整個推理過於抽象,因此咱們對定義域進行必定的限制,將重點放在如下兩類常見的統計學習問題:

    迴歸問題(Regression):
    二分類問題(Binary Classification):

    下面分別分析兩類問題的最優解。

    1.3.1 迴歸問題的最優解

    在上述迴歸問題中,咱們要求解的目標變成了:

    具體導出最優解的數學過程有點繁瑣,因此這裏咱們用一個非嚴格但相對直觀的方式,推導一下最優解。對嚴格數學推導過程感興趣的同窗能夠自行推導,或參考資料。
    首先,由上述公式能夠看出,這裏的指望值是一個大於等於0的值,且顯然。所以咱們直觀上能感覺到,最優解應該使得在任何地方都儘可能接近,這樣才能讓儘量小。
    可是因爲通常狀況下咱們認爲不是肯定函數(不然這個函數就直接是最優解了),因此咱們用條件機率刻畫這個關係,任意給定一對,其對應的服從:

    而這個條件機率,能夠對聯合機率邊緣化導出:

    而要想令儘量小,直覺上咱們可讓的條件指望(實際上數學嚴格證實結論也是如此):

    也就是說迴歸問題的最優解是輸入值的條件指望

    1.3.2 二分類問題的最優解

    二分類問題的最優解分析與迴歸問題相似,可是要簡單不少,這得益於二分類問題的輸出空間要更簡單一些。下面具體看一下:

    與分析迴歸相似,咱們先代入已知條件,寫出優化目標:

    上面的指望能夠將聯合機率分佈改寫爲條件機率分佈形式:

    一樣咱們來非嚴格的分析一下這個式子如何取最小值。注意這裏可能的取值只有0和1,因此的取值必定是一個0一個1,因此按直覺來講一個合理的推斷是不管什麼時候,咱們但願讓被積函數部分儘量小,具體來講:

    若是,咱們但願,即令
    若是,咱們但願,即令

    另外咱們注意到是一個大於等於0的常數,因此咱們只要在選擇較大的便可,即:

    以上最優解叫作貝葉斯分類器,是二分類問題的理論最優分類器,也是平均意義下統計學習所能達到的分類器上限

    1.4 統計學習

    下面咱們嚴格定義統計學習。爲了簡單起見,從如今起,咱們全部的討論都圍繞二分類問題展開,所獲得的各類結論,理論上均可以推廣到通常化的問題,可是在這裏就再也不從通常意義上進行推導,而是默認將問題限定在二分類問題。

    首先,咱們給上面處處都用到的那個指望起一個名字:風險,用表示。注意在其餘條件已知的情形下,的函數,即:

    所以咱們上述目標能夠簡化成:

    上文能夠知道,若是咱們知道聯合機率分佈,則能夠經過數學計算直接導出最優解:貝葉斯分類器。所以也就不須要統計學習什麼的了,可是現實狀況是,咱們每每不知道,也沒法經過什麼方法觀測到,而只能夠觀測到一個可數但無窮(現實中每每是又窮的,但這裏咱們暫時放寬這個條件)的獨立無偏樣本:,咱們是否有某種可靠的方式,去獲得或逼近貝葉斯分類器。

    嚴格來講,(二分類)統計學習是這樣一個問題:


    統計學習

    已知輸入空間,輸出空間,損失函數。另存在一固定但未知且不可直接觀測聯合機率分佈,以及可數但任意大的iid(獨立同分布)抽樣。設下的貝葉斯分類器。

    現給出一個函數空間(稱爲假設空間),和從中選擇分類器算法,使得當時,算法從中選擇的分類器的風險依機率收斂到貝葉斯分類器的風險,即對於任意,由算法選擇的知足:


    注意,以上定義是一個很是嚴苛的定義,在定義一下,咱們要求咱們的算法在樣本無限多時能以任意大的機率和任意小的差距逼近最優分類器且對聯合機率分佈沒有任何假設。這是咱們最理想的統計學習,但實際中,因爲達到這個目標很是困難,因此咱們可能會退而求其次尋求一些更寬鬆的目標。

    這一章節,咱們經過數學方式嚴格定義了統計學習,並給出了最理想的狀況。

相關文章
相關標籤/搜索