目錄算法
1、參數估計機器學習
2、極大釋然估計ide
1.似然函數函數
4.損失函數優化
5.求極大似然估計的通常步驟人工智能
3、常見分佈的參數估計spa
1.高斯分佈orm
4. 樸素貝葉斯(Naive Bayes Classifier, NBC)
參數估計,即估計模型的參數:給定模型p(x|Ɵ)和數據D,選擇與數據最匹配的參數Ɵ。
經常使用估計模型參數的方法:
(1)矩方法,好比一階矩,二階矩,…,K階矩;
(2)極大釋然估計:頻率學派
(3)貝葉斯估計:貝葉斯學派
似然(likelihood,可能性的意思),描述的是事件發生可能性的大小。
似然函數的定義:
設數據D=X1,…,XN爲獨立同分布(IID),其機率密度函數(pdf)爲p(x|Ɵ),則似然函數定義爲:
即爲在給定數據D的狀況下,參數爲Ɵ的函數。
定義:使得似然函數L(Ɵ)最大的Ɵ的估計:
定義:
即:
性質:
(1) 它和似然函數在相同的位置取極大值
(2) 在不引發混淆的狀況下,有時記log似然函數爲似然函數
(3) 相差常數倍也不影響似然函數取極大值的位置,所以似然函數中的常數項也能夠拋棄
(4) 在分類中log似然有時亦稱爲交叉熵(cross-entropy)
損失函數 = 負log似然函數,即:
損失函數 = - log p( Ɵ|D)
(1)選擇模型
(2)獲得密度函數p(x)
(3)求似然函數L = Ʃ log.p(x)
(4)對似然函數求極值(求導),獲得參數估計
假設X1,…,XN ~ N (μ, δ2 ),參數爲μ, δ2,則高斯分佈:
的似然函數爲:
其中,
樣本均值:
樣本方差:
由於有:
高斯分佈的似然函數化簡爲:
求最大值(求梯度,解方程):
獲得極值點(一階導數爲0):
說明,使用樣本的均值和方差做爲高斯分佈的參數估計,是極大似然的。
Bernoulli分佈的密度函數爲:
其似然函數爲:
其中,N1爲試驗結果爲1的次數,N2爲試驗結果爲0的次數,
求極大似然有:
即樣本實驗結果爲1的比率,是Bernoulli分佈的參數Ɵ的極大釋然估計。
Binomia分佈的密度函數爲:
其似然函數爲:
其極大釋然估計和Bernoulli分佈同樣:
求極大似然有:
即樣本實驗結果爲1的比率,是 Binomia分佈的參數Ɵ的極大釋然估計。
Multinoull分佈的密度函數爲:
其似然函數爲(其中NK表示N次試驗中出現k的次數):
約束條件爲:
採用拉格朗日乘子法求極值:
分別對λ和θk求偏導並令其等於0:
即爲θ的最大釋然參數估計。
(1) 正態分佈可用於迴歸系統噪聲建模
(2) 迴歸是監督學習問題,是輸入到輸出的映射的學習。
(3) 迴歸問題的模型:
假設殘差服從正態分佈:
所以,迴歸問題的模型能夠記爲:
迴歸即預測其輸出:
線性迴歸:輸入與輸出呈線性關係。
相信迴歸的模型:
即:
其中W0是截距,W爲權重向量,ε爲預測值和真值之間的殘差。模型的參數爲Ɵ =(W, δ2)
線性迴歸的似然函數爲:
其中,RSS表示殘差平方和(residual sum of squares),即殘差向量的L2模:
注:平均平方偏差(MSE) = RSS/N
極大似然等價爲極小負log似然損失(negative log likelihood,NLL):
只取與w有關的項,獲得:
由於有矩陣求導:
因此NLL求導有:
求解獲得:
即爲W的極大似然估計,把其代入NLL,則有:
求導有:
求解得:
以上即是線性迴歸參數Ɵ =(W, δ2)的極大似然估計。
1)當樣本數目N較小時,可採用OLS結論,用矩陣QR分解分解獲得優化解。
2)當樣本數目N較大時,可採用隨機梯度降低方法優化求解:
<1> 目標函數:
<2> 梯度降低法步驟:
i)給定初值w0
ii) 更新w,使得J(W)愈來愈小
iii) w的各維同時更新:
iv) 直到收斂到某個w值,使得J(W)最小
其中,α稱爲學習率,控制降低速度的大小。
(1)Logistic迴歸是線性迴歸的擴展,用於分類任務(0, 1)
(2)分類目標爲二值變量,所以服從Bernoulli分佈:
其中y爲類別輸入(0,1)。
假設輸入爲x的線性組合,即輸入爲x的函數μ(x),則Bernoulli分佈的密度函數能夠寫爲:
其中:0≤μ(x)≤1
(3) 在Logistic迴歸中,輸入的x的函數(機率密度函數)爲:
其中sigm()爲sigmoid函數,或logistic函數:
(4) logistic迴歸的機率密度函數爲:
(1)負log似然函數求參數估計
Logistic迴歸的似然函數爲:
其中,
μi = μ(xi) = sigm(wTx)
yi = 分類標籤(0,1)
(1) 梯度降低法求解
1)對似然函數進行求導
其中,
以上用到的矩陣求導:
2)獲得梯度函數
3)使用梯度進行迭代
即:
其中,
(2) 牛頓法求解
1)牛頓法也叫牛頓-拉夫遜(Newton-Raphson)方法,也叫二階梯度降低法。
2)原理:使用函數f(x)的泰勒級數的前面幾項來尋找方程f(x)=0的根
3)步驟:
i) 將導數g(w)在wt處進行Taylor展開:
ii) 由上式獲得:
iii) 迭代式爲:
假設共有C個類別y∈(1,2,…,C),每一個類別有特徵X=(x1,x2,…xD), 則樸素貝葉斯爲假設各維特徵在給定類別標籤的狀況下條件獨立:
機率密度函數:
其中,π、θ分別爲y的先驗分佈和類條件分佈的參數。
(1)似然函數爲:
其中Nc爲y=c的樣本數。
則參數估計:
其中:
(4) 若是服從正泰分佈
則參數估計:
(5) 使用樸素貝葉斯進行預測
將給定數據條件D換成參數的MLE插入,獲得:
例如Bernoulli分佈的預測:
一個好的估計具備的性質:
(1) 無偏性:估計量的指望等於真值的指望:
即估計的誤差(bias):
等於0。
(2) 相容性
若:
則該估計是相容(consistent)的。
(3) 有效性
無偏估計中,方差較小的一個更有效(收斂速度更快)
點估計的性能經過均方偏差(MSE, mean squared error)來評價:
可分解爲:
其中,
估計的誤差爲:
估計的變化程度(精度)爲:
(1) 若是bias = 0, 稱其爲無偏估計
(2) 爲了使估計的MSE小,估計的誤差和方差到要小。
在迴歸任務中,學習算法f的平方預測偏差指望爲:
(1) 誤差:學習算法的預測的指望與真實結果的偏離程度, 即刻畫了學習算法自己的擬合能力。
(2) 方差:一樣大小的訓練集的變更所致使的學習性能的變化, 即刻畫了數據擾動所形成的影響。
(3) 噪聲:在當前任務上任何學習算法所能達到的指望泛化偏差的下界, 即刻畫了學習問題自己的 難度。
解決的問題:分佈的參數真值未知,沒法產生真實的模擬數據。
如何解決?:估計的抽樣分佈
估計的抽樣分佈:
假設從真實分佈:
中進行S次抽樣,每次的樣本集的大小均爲N, 獲得數據集合
根據每次抽樣獲得的數據D(s),都會獲得一個估計:
當S -> ∞ 時,使用估計的參數代替真實的參數,稱爲估計的抽樣分佈。
Bootstrap(一種重採樣技術),用代替
,從分佈
中產生樣本。
從原始數據中進行N次有放回地採樣N個數據,用經驗分佈近似真正的分佈
- tany 2017年10月9日於杭州
人工智能從入門到專家教程資料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765