(原創)機器學習之機率與統計(三)- 極大似然估計

     目錄算法

1、參數估計... 2機器學習

2、極大釋然估計... 2ide

1.似然函數... 2函數

2.極大似然估計(MLE... 2性能

3.log似然函數... 2學習

4.損失函數... 2優化

5.求極大似然估計的通常步驟... 2人工智能

3、常見分佈的參數估計... 3spa

1.高斯分佈... 3orm

2Bernoulli分佈... 3

3二項分佈(Binomia... 4

4多項分佈(Multinoull... 4

4、機器學習模型的參數估計... 5

1.迴歸... 5

2.線性迴歸... 5

2.1線性迴歸的極大似然估計... 5

3.Logistic迴歸... 7

3.1 Logistic迴歸的極大似然估計... 7

4. 樸素貝葉斯(Naive Bayes Classifier, NBC). 9

4.1定義... 9

4.2樸素貝葉斯的極大似然估計... 9

5、估計的評價... 10

1.    估計量的評價標準... 10

2.    誤差-方差分解... 10

3.    監督學習模型的誤差-方差分解... 11

4.    估計的抽樣分佈... 11

4.1參數Bootstrap. 12

4.2非參數Bootstrap. 12

 

 

1、參數估計

  參數估計,即估計模型的參數:給定模型p(x|Ɵ)和數據D,選擇與數據最匹配的參數Ɵ

  經常使用估計模型參數的方法:

  (1)矩方法,好比一階矩,二階矩,K階矩;

  (2)極大釋然估計:頻率學派

  (3)貝葉斯估計:貝葉斯學派

 

2、極大釋然估計

1.似然函數

    似然(likelihood,可能性的意思),描述的是事件發生可能性的大小。

    似然函數的定義:

    設數據D=X1,…,XN爲獨立同分布(IID),其機率密度函數(pdf)爲p(x|Ɵ),則似然函數定義爲:

       clip_image001

    即爲在給定數據D的狀況下,參數爲Ɵ的函數。

 

2.極大似然估計(MLE

    定義:使得似然函數L(Ɵ)最大的Ɵ的估計:

        clip_image002

3log似然函數

    定義:

       clip_image003

    即:

       clip_image004

    性質:

(1)  它和似然函數在相同的位置取極大值

(2)  在不引發混淆的狀況下,有時記log似然函數爲似然函數

(3)  相差常數倍也不影響似然函數取極大值的位置,所以似然函數中的常數項也能夠拋棄

(4)  在分類中log似然有時亦稱爲交叉熵(cross-entropy)

 

4.損失函數

    損失函數 = log似然函數,即:

    損失函數 = - log p( Ɵ|D)

 

5.求極大似然估計的通常步驟

1)選擇模型

2)獲得密度函數p(x)

3)求似然函數L = Ʃ log.p(x)

4)對似然函數求極值(求導),獲得參數估計

 

3、常見分佈的參數估計

1.高斯分佈

假設X1,…,XN ~ N (μ, δ2 ),參數爲μ, δ2,則高斯分佈:

   clip_image005

的似然函數爲:

   clip_image006

其中,

樣本均值:

   clip_image007 

樣本方差:   

clip_image008

     由於有:

               clip_image009

      高斯分佈的似然函數化簡爲:

    clip_image010

    求最大值(求梯度,解方程):

       clip_image011

  獲得極值點(一階導數爲0):

      clip_image012[4]

     說明,使用樣本的均值和方差做爲高斯分佈的參數估計,是極大似然的。

 

2.Bernoulli分佈

Bernoulli分佈的密度函數爲:

clip_image013

其似然函數爲:

     clip_image014

其中,N1爲試驗結果爲1的次數,N2爲試驗結果爲0的次數,

     clip_image015

求極大似然有:

     clip_image016

即樣本實驗結果爲1的比率,是Bernoulli分佈的參數Ɵ的極大釋然估計。

 

3.二項分佈(Binomia

Binomia分佈的密度函數爲:

clip_image017

    其似然函數爲:

       clip_image018

    其極大釋然估計和Bernoulli分佈同樣:

    求極大似然有:

     clip_image016[1]

即樣本實驗結果爲1的比率,是 Binomia分佈的參數Ɵ的極大釋然估計。

 

4.多項分佈(Multinoull

Multinoull分佈的密度函數爲:

clip_image019

其似然函數爲(其中NK表示N次試驗中出現k的次數):

   clip_image020

約束條件爲:

   clip_image021

採用拉格朗日乘子法求極值:

  clip_image022

分別對λ和θk求偏導並令其等於0

clip_image023

即爲θ的最大釋然參數估計。

 

4、機器學習模型的參數估計

1. 迴歸

(1)  正態分佈可用於迴歸系統噪聲建模

(2)  迴歸是監督學習問題,是輸入到輸出的映射的學習。

(3)  迴歸問題的模型:

clip_image024

假設殘差服從正態分佈:

     clip_image025

    所以,迴歸問題的模型能夠記爲:

     clip_image026

    迴歸即預測其輸出:

     clip_image027

2.線性迴歸

    線性迴歸:輸入與輸出呈線性關係。

    相信迴歸的模型:

       clip_image028

    即:

       clip_image029

    其中W0是截距,W爲權重向量,ε爲預測值和真值之間的殘差。模型的參數爲Ɵ =W, δ2

 

2.1 線性迴歸的極大似然估計

2.1.1 線性迴歸的似然函數

    線性迴歸的似然函數爲:

       clip_image030

    其中,RSS表示殘差平方和(residual sum of squares),即殘差向量的L2模:

       clip_image031

    注:平均平方偏差(MSE)  = RSS/N

 

2.1.2 log似然函數求參數估計

極大似然等價爲極小負log似然損失(negative log likelihoodNLL)

clip_image032

    只取與w有關的項,獲得:

       clip_image033

    由於有矩陣求導:

       clip_image034

因此NLL求導有:

        clip_image035

求解獲得:

        clip_image036[4]

即爲W的極大似然估計,把其代入NLL,則有:

        clip_image037

求導有:

clip_image038

求解得:

    clip_image039

以上即是線性迴歸參數Ɵ =W, δ2)的極大似然估計。

 

2.1.3 計算機求解線性迴歸的解極大似然估計

1)當樣本數目N較小時,可採用OLS結論,用矩陣QR分解分解獲得優化解。

2)當樣本數目N較大時,可採用隨機梯度降低方法優化求解:

<1> 目標函數:

     clip_image040

<2> 梯度降低法步驟:

i)給定初值w0

ii) 更新w,使得J(W)愈來愈小

   clip_image041

iii) w的各維同時更新:

   clip_image042

iv) 直到收斂到某個w值,使得J(W)最小

其中,α稱爲學習率,控制降低速度的大小。

 

3Logistic迴歸

1Logistic迴歸是線性迴歸的擴展,用於分類任務(0, 1

2)分類目標爲二值變量,所以服從Bernoulli分佈:

        P(y|θ)  = clip_image044

    其中y爲類別輸入(0,1)。

    假設輸入爲x的線性組合,即輸入爲x的函數μ(x),則Bernoulli分佈的密度函數能夠寫爲:

       P(y|μ(x) )  = clip_image046

    其中:0≤μ(x)1

(3)  Logistic迴歸中,輸入的x的函數(機率密度函數)爲:

μ(x) = sigm(wTx)

其中sigm()sigmoid函數,或logistic函數:

clip_image047

(4)  logistic迴歸的機率密度函數爲:

clip_image048

 

 

3.1 Logistic迴歸的極大似然估計

(1)log似然函數求參數估計

Logistic迴歸的似然函數爲:

     clip_image049

其中,

μi = μ(xi) = sigm(wTx)

    yi = 分類標籤(0,1

(1)  梯度降低法求解

1)對似然函數進行求導

clip_image050

其中,

clip_image051

以上用到的矩陣求導:

clip_image052

2)獲得梯度函數

clip_image053

3)使用梯度進行迭代

clip_image054

即:

clip_image055

其中,

clip_image056

(2)  牛頓法求解

1)牛頓法也叫牛頓-拉夫遜(Newton-Raphson)方法,也叫二階梯度降低法。

2)原理:使用函數f(x)的泰勒級數的前面幾項來尋找方程f(x)=0的根

3)步驟:

i)       將導數g(w)wt處進行Taylor展開:

clip_image057

ii)     由上式獲得:

clip_image058

iii)   迭代式爲:

clip_image059

 

 

4. 樸素貝葉斯(Naive Bayes Classifier, NBC)

4.1定義

       假設共有C個類別y(1,2,…,C),每一個類別有特徵X=(x1,x2,…xD), 則樸素貝葉斯爲假設各維特徵在給定類別標籤的狀況下條件獨立:

clip_image060

機率密度函數:

       clip_image061

其中,π、θ分別爲y的先驗分佈和類條件分佈的參數。

4.2樸素貝葉斯的極大似然估計

1)似然函數爲:

    clip_image062

    其中Ncy=c的樣本數。

(2)  若是服從Bernoulli分佈

clip_image063

則參數估計:

clip_image064

其中:

clip_image065

(3)  若是服從多值分佈

clip_image066

則參數估計:

clip_image067

其中:

clip_image068

(4)  若是服從正泰分佈

clip_image069

則參數估計:

clip_image070

(5)  使用樸素貝葉斯進行預測

將給定數據條件D換成參數的MLE插入,獲得:

clip_image071

例如Bernoulli分佈的預測:

clip_image072

 

5、估計的評價

1.   估計量的評價標準

一個好的估計具備的性質:

(1)   無偏性:估計量的指望等於真值的指望:

即估計的誤差(bias)

clip_image073

等於0。

(2)   相容性

若:

clip_image074

則該估計是相容(consistent)的。

(3)   有效性

無偏估計中,方差較小的一個更有效(收斂速度更快)

 

2.  誤差-方差分解

點估計的性能經過均方偏差(MSE, mean squared error)來評價:

clip_image075

可分解爲:

clip_image076

其中,

估計的誤差爲:

 clip_image077

估計的變化程度(精度)爲:

  clip_image078

(1)   若是bias = 0 稱其爲無偏估計

(2)   爲了使估計的MSE小,估計的誤差和方差到要小。

 

3.   監督學習模型的誤差-方差分解

在迴歸任務中,學習算法f的平方預測偏差指望爲:

clip_image079

(1)   誤差:學習算法的預測的指望與真實結果的偏離程度, 即刻畫了學習算法自己的擬合能力。

(2)   方差:一樣大小的訓練集的變更所致使的學習性能的變化, 即刻畫了數據擾動所形成的影響。

(3)   噪聲:在當前任務上任何學習算法所能達到的指望泛化偏差的下界, 即刻畫了學習問題自己的     難度。

 

4.  估計的抽樣分佈

解決的問題:分佈的參數真值未知,沒法產生真實的模擬數據。

如何解決?:估計的抽樣分佈

 

估計的抽樣分佈:

假設從真實分佈:

       clip_image080

中進行S次抽樣,每次的樣本集的大小均爲N, 獲得數據集合

        clip_image081

根據每次抽樣獲得的數據D(s),都會獲得一個估計:

        clip_image082

S -> ∞ 時,使用估計的參數代替真實的參數,稱爲估計的抽樣分佈。

 

4.1 參數Bootstrap

Bootstrap(一種重採樣技術),用clip_image084代替clip_image086[4],從分佈clip_image088[4]中產生樣本。

 

4.2 非參數Bootstrap

從原始數據中進行N次有放回地採樣N個數據,用經驗分佈近似真正的分佈

 

               - tany 2017年10月9日於杭州

 

人工智能從入門到專家教程資料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765

相關文章
相關標籤/搜索