分佈問題（二元，多元變量分佈，Beta，Dir）

時間 2019-12-09

標籤分佈問題二元 2元多元變量 beta dir 简体版

原文原文鏈接

這涉及到數學的機率問題。函數

二元變量分佈：

伯努利分佈，就是0-1分佈(好比一次拋硬幣，正面朝上機率)spa

那麼一次拋硬幣的機率分佈以下：3d

假設訓練數據以下：blog

那麼根據最大似然估計（MLE）,咱們要求u：數學

求值推導過程以下：it

因此能夠求出：變量

以上的推導過程就是極大似然估計，咱們能夠看出u就是樣本出現的頻率除以總共拋硬幣的實驗次數。可是極大似然估計有它的侷限性，當訓練樣本比較小的時候會致使Overfitting問題，好比說拋了10次硬幣，有8次朝上，那麼根據極大似然估計，u的取值就應該是8/10（這符號頻率派的觀點）。如何解決這個問題呢？im

那麼這時候就須要從貝葉斯理論出發，貝葉斯理論認爲，u並非一個固定的值，u是一樣服從某個分佈，所以咱們假設u有個先驗分佈P(u)。d3

可是如何選取這個先驗分佈p（u）呢？數據

咱們知道

所以咱們但願先驗分佈也能夠有相似的機率分佈，爲何這麼說呢？由於後驗機率=先驗機率*似然函數，因此若是選擇的先驗分佈和似然函數有同樣的結構，那麼獲得的後驗機率也會存在類似的結構，這樣會使得咱們後面的計算簡便。

共軛性：θ的後驗分佈p(θ|x)與先驗分佈P（θ）屬於同一分佈，那麼稱兩者爲共軛分佈。

所以咱們假設u的先驗分佈也爲

那麼這時候數學裏面有個分佈叫作Beta分佈：

那麼假設咱們投硬幣，m次正面，l次反面。總共是m+l=N次實驗：

那麼這時候u的分佈爲：

依舊和先驗分佈服從同樣的分佈（共軛分佈）

假設咱們要預測下一次的實驗結果，也就是給定D獲得下一次的預測分佈：

咱們能夠發現當m，N無限變大的時候，這種估計近似等於極大似然估計。