最大似然估計與最大後驗估計

前言

本系列文章爲 《Deep Learning》 讀書筆記,能夠參看原書一塊兒閱讀,效果更佳。機器學習

MLE VS MAP

最大似然函數(MLE)和最大後驗機率估計(MAP)是兩種徹底不一樣的估計方法,最大似然函數屬於頻率派統計(認爲存在惟一真值 θ),最大後驗估計屬於貝葉斯統計(認爲 θ 是一個隨機變量,符合必定的機率分佈),這是兩種認識方法的差別。模型不變,機率是參數推數據,統計是數據推參數。函數

最大似然估計

似然函數是一種關於模型中參數的函數,是根據模型的觀測值,估計模型中參數的值。給定輸出 x ,關於 θ 的似然函數 L(θ|x) 數值上等於給定參數 θ 後變量 X 的機率。其數學定義爲:學習

$$ L(θ|x)=f_θ(x)=P_θ(X=x) $$get

最大似然估計是其中的一種好的估計,在樣本趨近於無窮時,最大似然是收斂率最好的漸進估計,且因爲它的一致性和統計效率,在機器學習中也是首選的估計方法。在獨立同分布狀況下:深度學習

$$ \hatθ_{MLE}=argmaxP(X;θ)=argmaxP(x_1;θ)P(x_2;θ)...P(x_n;θ) =argmax\log\prod_{i=1}^nP(x_i;θ)\\\\=argmax\sum_{i=1}^n\log P(x_i;θ) =argmin-\sum_{i=1}^n\log P(x_i;θ)//負對數似然 $$數學

因爲對數函數單調增,所以想要求 L 的最大值,能夠求其對數做爲求其最大值的函數,這樣求出的結果是相同的。深度學習所作分類任務中用到的交叉熵本質是求最大似然函數。效率

條件最大似然估計

$$ \hatθ_{MLE}=argmaxP(Y|X;θ)=argmax\sum_{i=1}^{m}\log{P(y^{(i)}|x^{(i)}|θ)} $$讀書筆記

最大後驗估計

貝葉斯公式:變量

$$ P(θ|x)=\frac{P(x|θ)P(θ)}{P(x)} $$方法

其中 P(x|θ) 是似然函數,P(θ) 是先驗機率。

則最大後驗估計的數學定義爲:

$$ \hat \theta_{MAP}(x)=\arg \max_\theta f(\theta|x)=\arg \max_\theta \frac{f(x|\theta)g(\theta)}{\int_\vartheta f(x|\vartheta)g(\vartheta)d\vartheta}=\arg\max_\theta f(x|\theta)g(\theta) $$

theta 爲須要估計的參數,f 爲機率,g 爲先驗估計,最大化後驗估計經過 f·g 求得。當先驗分佈爲常數時,最大後驗估計與最大似然估計重合。

總結

最大似然估計與最大後驗估計對比分析。

相關文章
相關標籤/搜索