這涉及到數學的機率問題。函數
伯努利分佈,就是0-1分佈(好比一次拋硬幣,正面朝上機率)spa
那麼一次拋硬幣的機率分佈以下:3d
假設訓練數據以下:blog
那麼根據最大似然估計(MLE),咱們要求u:數學
求值推導過程以下:it
因此能夠求出:變量
以上的推導過程就是極大似然估計,咱們能夠看出u就是樣本出現的頻率除以總共拋硬幣的實驗次數。可是極大似然估計有它的侷限性,當訓練樣本比較小的時候會致使Overfitting問題,好比說拋了10次硬幣,有8次朝上,那麼根據極大似然估計,u的取值就應該是8/10(這符號頻率派的觀點)。如何解決這個問題呢?im
那麼這時候就須要從貝葉斯理論出發,貝葉斯理論認爲,u並非一個固定的值,u是一樣服從某個分佈,所以咱們假設u有個先驗分佈P(u)。d3
可是如何選取這個先驗分佈p(u)呢?數據
咱們知道
所以咱們但願先驗分佈也能夠有相似的機率分佈,爲何這麼說呢?由於後驗機率=先驗機率*似然函數,因此若是選擇的先驗分佈和似然函數有同樣的結構,那麼獲得的後驗機率也會存在類似的結構,這樣會使得咱們後面的計算簡便。
共軛性:θ的後驗分佈p(θ|x)與先驗分佈P(θ)屬於同一分佈,那麼稱兩者爲共軛分佈。
所以咱們假設u的先驗分佈也爲
那麼這時候數學裏面有個分佈叫作Beta分佈:
那麼假設咱們投硬幣,m次正面,l次反面。總共是m+l=N次實驗:
那麼這時候u的分佈爲:
依舊和先驗分佈服從同樣的分佈(共軛分佈)
假設咱們要預測下一次的實驗結果,也就是給定D獲得下一次的預測分佈:
咱們能夠發現當m,N無限變大的時候,這種估計近似等於極大似然估計。
不少時候,變元的不止只有兩個,還有多元,其實估計過程是相似的。 假設有k維向量,其中某個向量Xk=1,其餘等於0。
例如某個變量x2發生,則X2=1,x=(0,1,0,0,0,0) 以拋篩子爲例子,總共有6個面。
那麼xk=1發生的機率爲Uk,那麼x的分佈爲:
考慮n個獨立觀測值{x1,x2,...xn}D,對應的似然函數:
其中mk其實就是這麼屢次實驗中,uk出現的次數大小。估計極大似然估計,咱們會得出:
同理,爲了不數據量小致使的過擬合問題,咱們對Uk也假設一個先驗分佈:
考慮到對於多元變量的分佈u:
所以咱們選擇它的共軛分佈狄利克雷分佈爲先驗分佈:
那麼後驗分佈=似然分佈*先驗分佈:
依舊和先驗分佈服從同樣的分佈(共軛分佈)
假設咱們要預測下一次的實驗結果,也就是給定D獲得下一次的預測分佈:
又由於對於狄利克雷分佈:
因此對於某個類的分佈預測爲: