各種分佈----二項分佈,泊松分佈,負二項分佈,gamma 分佈,高斯分佈,學生分佈,Z分佈

伯努利實驗:less

若是無窮隨機變量序列  是獨立同分布(i.i.d.)的,並且每一個隨機變量  都服從參數爲p的伯努利分佈,那麼隨機變量  就造成參數爲p的一系列伯努利試驗。一樣,若是n個隨機變量  獨立同分布,而且都服從參數爲p的伯努利分佈,則隨機變量  造成參數爲p的n重伯努利試驗。機器學習

伯努利試驗是隻有兩種可能結果的單次隨機試驗。ide

  • 若是試驗E是一個伯努利試驗,將E獨立重複地進行n次,則稱這一串重複的獨立試驗爲n重伯努利試驗

 

1、伯努利分佈:函數

伯努利分佈亦稱「零一分佈」、「兩點分佈」。稱隨機變量X有伯努利分佈, 參數爲p(0<p<1),若是它分別以機率p和1-p取1和0爲值。EX= p,DX=p(1-p)。伯努利試驗成功的次數服從伯努利分佈,參數p是試驗成功的機率。伯努利分佈是一個離散型機率分佈,是N=1時二項分佈的特殊狀況,爲記念瑞士科學家詹姆斯·伯努利(Jacob Bernoulli 或James Bernoulli)而命名。學習

 

例子:假定重複拋擲一枚均勻硬幣,若是在第i次拋擲中出現正面,令  ;若是出現反面,令  ,那麼,隨機變量  就造成參數爲  的一系列伯努利試驗,一樣,假定由一個特定機器生產的零件中10%是有缺陷的,隨機抽取n個進行觀測,若是第i個零件有缺陷,令 ;若是沒有缺陷,令  ,那麼,隨機變量  就造成參數爲  的n重伯努利試驗 (百度百科)
網站

E(X)=p, E(X2)=q , Var(X)=pqspa

2、二項分佈:.net

n 次Bernoulli試驗的結果中,每次試驗的分佈不變,結果爲1的次數 X 的分佈。就是重複n次的伯努利實驗3d

在機率論和統計學裏面,帶有參數n和p的二項分佈表示的是n次獨立試驗的成功次數的機率分佈。在每次獨立試驗中只有取兩個值,表示成功的值的機率爲p,那麼表示試驗不成功的機率爲1-p。這樣一種判斷成功和失敗的二值試驗又叫作伯努利試驗orm

特殊地,當n=1的時候,咱們把二項分佈稱爲伯努利分佈。

 

若是
1.在每次試驗中只有兩種可能的結果,並且是互相對立的;
2.每次實驗是獨立的,與其它各次試驗結果無關;
3.結果事件發生的機率在整個系列試驗中保持不變,則這一系列試驗稱爲伯努利實驗。
在這試驗中,事件發生的次數爲一隨機事件,它服從二次分佈
 
3、超幾何分佈:

超幾何分佈,n 次伯努利試驗,每次試驗分佈發生改變,結果爲1的次數 X  的分佈,當試驗分佈變化不大的時候和二項分佈結果相同
它描述了從有限N個物件(其中包含M個指定種類的物件)中抽出n個物件,成功抽出該指定種類的物件的次數(不放回

4、泊松分佈
泊松分佈就是描述某段時間內,事件具體的發生機率。
泊松分佈的機率函數爲:

 泊松分佈的參數λ是單位時間(或單位面積)內隨機事件的平均發生次數。 泊松分佈適合於描述單位時間內隨機事件發生的次數

k事件X發生的頻數;P(X=k)事件X發生k次的機率

泊松分佈的指望和方差均爲  

特徵函數爲 

當二項分佈的n很大而p很小時,泊松分佈可做爲二項分佈的近似,其中λ爲np。一般當n≧20,p≦0.05時,就能夠用泊松公式近似得計算,當n趨近於無窮的時候等同於二項分佈。

5、多項分佈

是二項式分佈的推廣。二項式作n次伯努利實驗,規定了每次試驗的結果只有兩個,若是如今仍是作n次試驗,只不過每次試驗的結果能夠有多m個,且m個結果發生的機率互斥且和爲1,則發生其中一個結果X次的機率就是多項式分佈。

扔骰子是典型的多項式分佈。扔骰子,不一樣於扔硬幣,骰子有6個面對應6個不一樣的點數,這樣單次每一個點數朝上的機率都是1/6(對應p1~p6,它們的值不必定都是1/6,只要和爲1且互斥便可,好比一個形狀不規則的骰子),重複扔n次,若是問有k次都是點數6朝上的機率。

 

6、負二項分佈

一種離散機率分佈。知足如下條件的稱爲負二項分佈:實驗包含一系列獨立的實驗, 每一個實驗都有成功、失敗兩種結果,成功的機率是恆定的,實驗持續到r次成功,r爲正整數

r是整數時,負二項分佈又稱帕斯卡分佈(巴斯卡分佈),其機率質量函數爲(其中一種形式,兩種形式對比看下文):
它表示,已知一個事件在伯努利試驗中每次的出現機率是p,在一連串 伯努利試驗中,一件事件恰好在第r + k次試驗出現第r次的機率。
參數爲(r, p)的負二項分佈的數列k+r的指望是   。

7、gamma分佈

是統計學的一種連續機率函數。

gamma函數定義:

Γ(x) = ∫0 tx-1 e-t dt                      Γ(x+1) = x Γ(x);              Γ(x+1) = x!      

Gamma分佈中的參數α稱爲形狀參數(shape parameter),β稱爲逆尺度參數(scale parameter)

假設隨機變量X爲等到第α件事發生所需之等候時間, 密度函數爲
               
特徵函數爲
 
伽馬分佈的機率密度函數和失效率函數取決於形狀參數
 
的數值。
   
時,
 
爲遞減函數;
   
時,
   
爲遞增函數;
當   時,
   
爲單峯函數;
Gamma的可加性
兩個獨立隨機變量X和Y,且X~Ga(a,γ),Y~Ga(b,γ),則Z = X+Y ~ Ga(a+b,γ)。注意X和Y的尺度參數必須同樣。
Gamma分佈的特殊形式
當形狀參數α=1時,伽馬分佈就是參數爲γ的指數分佈,X~Exp(γ)
當α=n/2,β=1/2時,伽馬分佈就是自由度爲n的卡方分佈,X^2(n)
β=n,Γ(n,α)就是Erlang分佈。Erlang分佈經常使用於可靠性理論和 排隊論中 ,如一個複雜系統中從第 1 次故障到剛好再出現 n 次故障所需的時間;從某一艘船到達港口直到剛好有 n 只船到達所需的時間都服從 Erlang分佈;

8、指數分佈

指數分佈是事件的時間間隔的機率。如:

  • 嬰兒出生的時間間隔

  • 來電的時間間隔

  • 奶粉銷售的時間間隔

  • 網站訪問的時間間隔

是描述泊松過程當中的事件之間的時間的機率分佈,即事件以恆定平均速率連續且獨立地發生的過程。 這是伽馬分佈的一個特殊狀況,它是幾何分佈的連續模擬,它具備無記憶的關鍵性質。

指數函數的一個重要特徵是無記憶性(Memoryless Property,又稱遺失記憶性)。這表示若是一個隨機變量呈指數分佈,當s,t>0時有P(T>t+s|T>t)=P(T>s)。即,若是T是某一元件的壽命,已知元件使用了t小時,它總共使用至少s+t小時的條件機率,與從開始使用時算起它使用至少s小時的機率相等。

 

指望值 方差                若隨機變量x服從參數爲λ的指數分佈,則記爲  。

9、卡方分佈

若n個相互獨立的隨機變量ξ₁,ξ₂,...,ξn ,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這n個服從標準正態分佈的隨機變量的平方和 構成一新的隨機變量,其分佈規律稱爲卡方分佈(chi-square distribution)。其中參數  稱爲自由度。記爲  或者  (其中    爲限制條件數)。

卡方分佈是由正態分佈構造而成的一個新的分佈,當自由度 很大時,  分佈近似爲正態分佈。

1)  分佈在第一象限內,卡方值都是正值,呈正偏態(右偏態),隨着參數  的增大,  分佈趨近於正態分佈;卡方分佈密度曲線下的面積都是1.

2)  分佈的均值與方差能夠看出,隨着自由度 的增大,χ2分佈向正無窮方向延伸(由於均值  愈來愈大),分佈曲線也愈來愈低闊(由於方  愈來愈大)。

 

3)不一樣的自由度決定不一樣的卡方分佈,自由度越小,分佈越偏斜。
4) 若   互相獨立,則:
   
服從
   
分佈,自由度爲
   
5)   分佈的均數爲自由度
 
,記爲 E(
  
) =
  
6)   分佈的方差爲2倍的自由度(
  
),記爲 D(
  
) =
  

 

10、Beta分佈

B函數,又稱爲Beta函數或者第一類歐拉積分,是一個做爲伯努利分佈和二項式分佈的共軛先驗分佈的密度函數,是指一組定義在(0,1) 區間的連續機率分佈,定義以下:

有兩個參數  

Β分佈的 機率密度函數是:
 
其中  
Γ函數。隨機變量X服從參數爲
 
的Β分佈一般寫做
 
Β分佈的 累積分佈函數 [1]  :
 
其中
 
是不徹底Β函數,
  
是正則不徹底貝塔函數。
 
Beta分佈與Gamma分佈的關係爲:

實例:

空氣中含有的氣體狀態的水分。表示這種水分的一種辦法就是相對溼度。即如今的含水量與空氣的最大含水量( 飽和含水量)的比值。咱們聽到的天氣預告用語中就常用相對溼度這個名詞。
相對溼度的值顯然僅能出現於0到1之間(常常用百分比表示)。而空氣爲何出現某個相對溼度顯然具備隨機性(能夠利用 最複雜原理),這些提示咱們空氣的相對溼度可能符合貝塔分佈。

11、幾何分佈

是離散型機率分佈。在n次伯努利試驗中,試驗k次才獲得第一次成功的機率。詳細地說,是:前k-1次皆失敗,第k次成功的機率。幾何分佈是帕斯卡分佈當r=1時的特例。

在伯努利試驗中,記每次試驗中事件A發生的機率爲p,試驗進行到事件A出現時中止,此時所進行的試驗次數爲X,其分佈列爲:
此分佈列是幾何數列的通常項,所以稱X服從幾何分佈,記爲X ~ GE(p) 。
實際中有很多隨機變量服從幾何分佈,譬如,某產品的不合格率爲0.05,則首次查到不合格品的檢查次數X ~ GE(0.05) 。
它分兩種狀況:
(1)爲獲得1次成功而進行n次 伯努利試驗,n的 機率分佈,取值範圍爲1,2,3,...;
這種狀況的指望和方差以下:
(2)m = n-1次失敗,第n次成功,m的機率分佈,取值範圍爲0,1,2,3,...。
這種狀況的指望和方差以下:
好比,假設不停地擲 骰子,直到獲得 1。投擲次數是隨機分佈的,取值範圍是無窮集合{ 1, 2, 3, ... },而且是一個 p= 1/6的幾何分佈。

12、學生分佈(t分佈)

用於根據小樣原本估計呈正態分佈且方差未知的整體的均值。若是整體方差已知(例如在樣本數量足夠多時),則應該用正態分佈來估計整體均值。

t分佈曲線形態與n(確切地說與自由度df)大小有關。與標準正態分佈曲線相比,自由度df越小,t分佈曲線愈平坦,曲線中間愈低,曲線雙側尾部翹得愈高;自由度df愈大,t分佈曲線愈接近正態分佈曲線,當自由度df=∞時,t分佈曲線爲標準正態分佈曲線。

因爲在實際工做中,每每σ是未知的,經常使用s做爲σ的估計值,爲了與u變換區別,稱爲t變換,統計量t 值的分佈稱爲t分佈。 [1] 
假設X服從標準正態分佈N(0,1),Y服從   分佈,那麼
  
的分佈稱爲自由度爲n的t分佈,記爲
  
分佈密度函數
   
其中,Gam(x)爲伽馬函數。

十3、正態分佈

正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,所以人們又常常稱之爲 鐘形曲線
隨機變量X服從一個 數學指望爲μ、 方差爲σ^2的正態分佈,記爲N(μ,σ^2)。其 機率密度函數爲正態分佈的 指望值μ決定了其位置,其 標準差σ決定了分佈的幅度。當μ = 0,σ = 1時的正態分佈是 標準正態分佈

十4、狄利克雷分佈

狄利克雷分佈(Dirichlet distribution)是多項分佈的共軛分佈,也就是它與多項分佈具備相同形式的分佈函數。同時能夠看作是將Beta分佈推廣到多變量的情形。一類在實數域以正單純形(standard simplex)爲支撐集(support)的高維連續機率分佈,是Beta分佈在高維情形的推廣。

對獨立同分布(independent and identically distributed, iid)的連續隨機變量  支撐集 ,若 服從狄利克雷分佈,則其機率密度函數

 

  

有以下定義 [1]  

 

 
式中,  無量綱的分佈參數,
  

是分佈參數的和,

  

是多元Beta函數(multivariate beta function),

  

Gamma函數。由上述解析形式可知,狄利克雷分佈是指數族分佈 [1]  

 

應用

貝葉斯推斷中,狄利克雷分佈做爲多項分佈的共軛先驗,被用於 多項分佈二項分佈和類型分佈(categorical distribution)的參數估計  [1]  。在機器學習領域,狄利克雷分佈和廣義狄利克雷分佈被應用於構建混合模型(mixture model)以處理高維的聚類和特徵賦權(feature weighting)等非監督學習問題 [21]  。使用狄利克雷分佈創建的主題模型(topic model),即隱含狄利克雷分佈(Latent Dirichlet Allocation, LDA)被應用於天然語言處理(Natural Language Processing, NLP)和生物信息學研究(bioinfomatics)

泊松分佈和負二項分佈用途區分

https://www.jianshu.com/p/ad24bb90b972--------------------- 原文:https://blog.csdn.net/tonyshengtan/article/details/82947416

相關文章
相關標籤/搜索