（原創）機器學習之機率與統計（三）- 極大似然估計

時間 2020-06-19

標籤原創機器學習機率統計極大估計简体版

原文原文鏈接

目錄算法

1、參數估計... 2機器學習

2、極大釋然估計... 2ide

1．似然函數... 2函數

2．極大似然估計（MLE）... 2性能

3．log似然函數... 2學習

4．損失函數... 2優化

5．求極大似然估計的通常步驟... 2人工智能

4．多項分佈（Multinoull）... 4

3.1 Logistic迴歸的極大似然估計... 7

4. 樸素貝葉斯(Naive Bayes Classifier, NBC). 9

3. 監督學習模型的誤差-方差分解... 11

4. 估計的抽樣分佈... 11

4.1參數Bootstrap. 12

4.2非參數Bootstrap. 12

1、參數估計

　　參數估計，即估計模型的參數：給定模型p(x|Ɵ)和數據D，選擇與數據最匹配的參數Ɵ。

　　經常使用估計模型參數的方法：

　　(1)矩方法，好比一階矩，二階矩，…，K階矩；

　　(2)極大釋然估計：頻率學派

　　(3)貝葉斯估計：貝葉斯學派

2、極大釋然估計

1．似然函數

似然（likelihood，可能性的意思），描述的是事件發生可能性的大小。

似然函數的定義：

設數據D=X₁,…,X_N爲獨立同分布（IID），其機率密度函數（pdf）爲p(x|Ɵ)，則似然函數定義爲：

即爲在給定數據D的狀況下，參數爲Ɵ的函數。

2．極大似然估計（MLE）

定義：使得似然函數L(Ɵ)最大的Ɵ的估計：

3．log似然函數

定義：

即：

性質：

（1）它和似然函數在相同的位置取極大值

（2）在不引發混淆的狀況下，有時記log似然函數爲似然函數

（3）相差常數倍也不影響似然函數取極大值的位置，所以似然函數中的常數項也能夠拋棄

（4）在分類中log似然有時亦稱爲交叉熵(cross-entropy)

4．損失函數

損失函數 = 負log似然函數，即：

損失函數 = - log p( Ɵ|D)

5．求極大似然估計的通常步驟

（1）選擇模型

（2）獲得密度函數p(x)

（3）求似然函數L = Ʃ log.p(x)

（4）對似然函數求極值（求導），獲得參數估計

3、常見分佈的參數估計

1．高斯分佈

假設X₁,…,X_N ~ N (μ, δ² )，參數爲μ, δ²，則高斯分佈：

的似然函數爲：

其中，

樣本均值：

樣本方差：

　由於有：

高斯分佈的似然函數化簡爲：

求最大值（求梯度，解方程）：

　　獲得極值點（一階導數爲0）：

說明，使用樣本的均值和方差做爲高斯分佈的參數估計，是極大似然的。

2．Bernoulli分佈

Bernoulli分佈的密度函數爲：

其似然函數爲：

其中，N₁爲試驗結果爲1的次數，N₂爲試驗結果爲0的次數，

求極大似然有：

即樣本實驗結果爲1的比率，是Bernoulli分佈的參數Ɵ的極大釋然估計。

3．二項分佈（Binomia）

Binomia分佈的密度函數爲：

其似然函數爲：

其極大釋然估計和Bernoulli分佈同樣：

求極大似然有：

即樣本實驗結果爲1的比率，是 Binomia分佈的參數Ɵ的極大釋然估計。

4．多項分佈（Multinoull）

Multinoull分佈的密度函數爲：

其似然函數爲（其中N_K表示N次試驗中出現k的次數）：

約束條件爲:

採用拉格朗日乘子法求極值：

分別對λ和θ_k求偏導並令其等於0：

即爲θ的最大釋然參數估計。

4、機器學習模型的參數估計

1. 迴歸

（1）正態分佈可用於迴歸系統噪聲建模

（2）迴歸是監督學習問題，是輸入到輸出的映射的學習。

（3）迴歸問題的模型：

假設殘差服從正態分佈：

所以，迴歸問題的模型能夠記爲：

迴歸即預測其輸出：

2．線性迴歸

線性迴歸：輸入與輸出呈線性關係。

相信迴歸的模型：

即：

其中W₀是截距，W爲權重向量，ε爲預測值和真值之間的殘差。模型的參數爲Ɵ =（W, δ²）

2.1 線性迴歸的極大似然估計

2.1.1 線性迴歸的似然函數

線性迴歸的似然函數爲：

其中，RSS表示殘差平方和(residual sum of squares)，即殘差向量的L2模：

注：平均平方偏差(MSE) = RSS/N

2.1.2 負log似然函數求參數估計

極大似然等價爲極小負log似然損失(negative log likelihood，NLL)：

只取與w有關的項，獲得：

由於有矩陣求導：

因此NLL求導有：

求解獲得：

即爲W的極大似然估計，把其代入NLL，則有：

求導有：

求解得：

以上即是線性迴歸參數Ɵ =（W, δ²）的極大似然估計。

2.1.3 計算機求解線性迴歸的解極大似然估計

1）當樣本數目N較小時，可採用OLS結論，用矩陣QR分解分解獲得優化解。

2）當樣本數目N較大時，可採用隨機梯度降低方法優化求解：

<1> 目標函數:

<2> 梯度降低法步驟：

i）給定初值w⁰

ii) 更新w，使得J(W)愈來愈小

iii) w的各維同時更新:

iv) 直到收斂到某個w值，使得J(W)最小

其中，α稱爲學習率，控制降低速度的大小。

3．Logistic迴歸

（1）Logistic迴歸是線性迴歸的擴展，用於分類任務（0, 1）

（2）分類目標爲二值變量，所以服從Bernoulli分佈：

P(y|θ) =

其中y爲類別輸入（0,1）。

假設輸入爲x的線性組合，即輸入爲x的函數 μ(x)，則Bernoulli分佈的密度函數能夠寫爲：

P(y|μ(x) ) =

其中：0≤μ(x)≤1

（3）在Logistic迴歸中，輸入的x的函數(機率密度函數)爲：

μ(x) = sigm(w^Tx)

其中sigm()爲sigmoid函數，或logistic函數：

（4） logistic迴歸的機率密度函數爲：

3.1 Logistic迴歸的極大似然估計

(1)負log似然函數求參數估計

Logistic迴歸的似然函數爲：

其中，

μ_i = μ(x_i) = sigm(w^Tx)

y_i= 分類標籤（0,1）

（1）梯度降低法求解

1）對似然函數進行求導

其中，

以上用到的矩陣求導：

2）獲得梯度函數

3）使用梯度進行迭代

即：

其中，

（2）牛頓法求解

1）牛頓法也叫牛頓-拉夫遜（Newton-Raphson）方法，也叫二階梯度降低法。

2）原理：使用函數f(x)的泰勒級數的前面幾項來尋找方程f(x)=0的根

3）步驟：

i) 將導數g(w)在w^t處進行Taylor展開:

ii) 由上式獲得：

iii) 迭代式爲：

4. 樸素貝葉斯(Naive Bayes Classifier, NBC)

4.1定義

假設共有C個類別y∈(1,2,…,C)，每一個類別有特徵X=(x₁,x₂,…x_D), 則樸素貝葉斯爲假設各維特徵在給定類別標籤的狀況下條件獨立：

機率密度函數：

其中，π、θ分別爲y的先驗分佈和類條件分佈的參數。

4.2樸素貝葉斯的極大似然估計

（1）似然函數爲：

其中N_c爲y=c的樣本數。

（2）若是服從Bernoulli分佈

則參數估計：

其中：

（3）若是服從多值分佈

則參數估計：

其中：

（4）若是服從正泰分佈

則參數估計：

（5）使用樸素貝葉斯進行預測

將給定數據條件D換成參數的MLE插入，獲得：

例如Bernoulli分佈的預測：

5、估計的評價

1. 估計量的評價標準

一個好的估計具備的性質：

（1）無偏性：估計量的指望等於真值的指望：

即估計的誤差(bias)：

等於0。

（2）相容性

若：

則該估計是相容(consistent)的。

（3）有效性

無偏估計中，方差較小的一個更有效（收斂速度更快）

2. 誤差-方差分解

點估計的性能經過均方偏差(MSE, mean squared error)來評價：

可分解爲：

其中，

估計的誤差爲：

估計的變化程度(精度)爲：

（1）若是bias = 0，稱其爲無偏估計

（2）爲了使估計的MSE小，估計的誤差和方差到要小。

3. 監督學習模型的誤差-方差分解

在迴歸任務中，學習算法f的平方預測偏差指望爲：

（1）誤差：學習算法的預測的指望與真實結果的偏離程度, 即刻畫了學習算法自己的擬合能力。

（2）方差：一樣大小的訓練集的變更所致使的學習性能的變化, 即刻畫了數據擾動所形成的影響。

（3）噪聲：在當前任務上任何學習算法所能達到的指望泛化偏差的下界, 即刻畫了學習問題自己的難度。

4. 估計的抽樣分佈

解決的問題：分佈的參數真值未知，沒法產生真實的模擬數據。

如何解決？：估計的抽樣分佈

估計的抽樣分佈：

假設從真實分佈：

中進行S次抽樣，每次的樣本集的大小均爲N, 獲得數據集合

根據每次抽樣獲得的數據D(s)，都會獲得一個估計：

當S -> ∞ 時，使用估計的參數代替真實的參數，稱爲估計的抽樣分佈。

4.1 參數 Bootstrap

Bootstrap（一種重採樣技術），用代替，從分佈中產生樣本。

4.2 非參數Bootstrap

從原始數據中進行N次有放回地採樣N個數據，用經驗分佈近似真正的分佈

- tany 2017年10月9日於杭州

人工智能從入門到專家教程資料：https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

（原創）機器學習之機率與統計（三）- 極大似然估計

1、參數估計

2、極大釋然估計

1．似然函數

2．極大似然估計（MLE）

3．log似然函數

4．損失函數

5．求極大似然估計的通常步驟

3、常見分佈的參數估計

1．高斯分佈

2．Bernoulli分佈

3．二項分佈（Binomia）

4．多項分佈（Multinoull）

4、機器學習模型的參數估計

1. 迴歸

2．線性迴歸

2.1 線性迴歸的極大似然估計

2.1.1 線性迴歸的似然函數

2.1.2 負log似然函數求參數估計

2.1.3 計算機求解線性迴歸的解極大似然估計

3．Logistic迴歸

3.1 Logistic迴歸的極大似然估計

4. 樸素貝葉斯(Naive Bayes Classifier, NBC)

4.1定義

4.2樸素貝葉斯的極大似然估計

5、估計的評價

1. 估計量的評價標準

2. 誤差-方差分解

3. 監督學習模型的誤差-方差分解

4. 估計的抽樣分佈

4.1 參數Bootstrap

4.2 非參數Bootstrap

4.1 參數 Bootstrap