(原創)機器學習之機率與統計(一)- 隨機變量及其分佈

目錄app

1、 機率公理及推論... 2ide

1.    聯合機率... 2函數

2.    條件機率... 2人工智能

3.    全機率公式... 2spa

4.    貝葉斯公式... 2component

2、 隨機變量及其分佈... 2orm

1.    隨機變量... 2htm

2.    累積分佈函數CDF. 2blog

3.    機率函數pmf2教程

4.    機率密度函數pdf3

5.    隨機變量的分佈... 3

5.1     分佈的概述... 3

5.2     位置描述... 3

5.3散佈程度描述... 4

3、 常見隨機變量機率分佈... 5

1.    常見離散型隨機變量... 5

1.1二項分佈(Binomial... 5

1.2 Bernoulli分佈... 5

1.3多項分佈(Multinomial... 5

2.常見離散型隨機變量... 5

2.1均勻分佈... 5

2.2高斯分佈... 5

2.3 Laplace分佈... 6

2.4 Gamma分佈... 6

2.5 Beta分佈... 7

2.6 Dirichlet分佈... 7

2.7 混合分佈... 7

2.8混合高斯模型... 7

4、 抽樣分佈... 8

1.   獨立同分布(IID... 8

2.抽樣分佈... 8

3.樣本均值和樣本方差... 8

4.弱大數定理(WLLN... 8

5.中心極限定理(Central Limit Theorem, CLT... 9

5、 分佈估計... 9

1.參數估... 9

2非參數估計... 9

2.1直方圖估計... 9

2.2核密度估計... 10

2.3根據有限個統計量估計(極大熵原理)... 10

 

 

1、  機率公理及推論

1.   聯合機率

對任意兩個時間AB,則有:

P(A , B) = P(AB) = P(B)P (A|B) = P(A)P (B|A)

2.   條件機率

P(B)0時,給定B發生時,A的條件機率是:

       clip_image002[8]

 

 

3.   全機率公式

A1, , AKA的一個子集,則對任意事件B,有:

clip_image004[8]

 

 

 

注:能夠把B事件發生的機率看做是全部在A條件下發生B的機率的權重之和,P(A)能夠當作一個權重。

4.   貝葉斯公式

  A1, , AKA的一個子集,k=1,2, ,K。若P(B)0P(A)0,則有

clip_image006[8]

 

 

其中:clip_image008[8]爲後驗機率,clip_image010[8]爲先驗機率。

 

2、  隨機變量及其分佈

1.   隨機變量

隨機變量是一個函數,將一個實數值映射到一個試驗的每個輸出。即將每個事件映射到衡量這個事件的每個數據。是隨機事件與數據之間的聯繫起來的紐帶:

  f(事件) = 數據

  f()稱爲隨機變量。

   注:

  1)數據是隨機變量的具體值

  2)統計量是數據或者隨機變量的任何函數

  3)任何隨機變量的函數仍然是隨機變量

2.   累積分佈函數CDF

X爲一個隨機變量,xX的一具體值(即數據),則隨機變量X的累積分佈函數(cumulative

distribution function, CDF)的定義:

F(X) = P(X x )         FR->[0,1]

       CDF包含了隨機變量的全部信息。

3.   機率函數pmf

離散型隨機變量的機率函數(probability mass function, pmf))的定義:

  p(x) = P(X=x)

性質:

  1)對於全部xRp(x) ≥ 0

  2)clip_image012[8]

  3)CDFpmf之間的關係:clip_image014[8]

4.   機率密度函數pdf

連續型隨機變量X的機率密度函數(probability density function, pdf))的定義:

對全部的x知足:

        clip_image016[8]   其中,p(x)0ab

 

則稱p爲機率密度函數。

性質:

  1)p(x)沒必要≤1

  2)CDFpdf間的關係:

F可微時,clip_image018[8]  clip_image020[8]

 

 

5.   隨機變量的分佈

5.1  分佈的概述

單值描述來刻畫某個分佈的性質:

  (1)   位置描述

   指望、中值、衆數、分位數

  (2)   散佈程度描述

  方差、四分位矩(IQR)

5.2  位置描述

5.2.1指望

       1)實質

隨機變量的平均值,即機率的加權平均,一階矩。

       2)連續狀況下的定義:

                     clip_image022[8]

 

 

3)離散狀況下的定義:

clip_image024[8]

 

 

       4)指望的性質

                1)線性運算

                            E(aX + b) = aE(X) + b

                2)加法規則

                            X1,…,Xn是隨機變量,a1,…,an是常數,則:

                            clip_image026[8]

 

3)乘法規則

X1,…,Xn是相互獨立的隨機變量,則:

         clip_image028[8]

 

 

5.2.2 衆數(mode

       定義:隨機變量次數出現最多的位置,即隨機變量出現機率最大的位置:

                 設隨機變量X有密度p(x),存在x0知足:

                     clip_image030[8]

 

 

                     則稱x0爲隨機變量X的衆數。

5.2.3 中值(Median

       隨機變量的累積分佈函數(CDF)爲0.5時的隨機變量的值:

       P(X x0 ) = 0.5 時,x0稱爲隨機變量X的中值。

5.2.3 分位數

       定義:分位數(分位函數quantile function)是隨機變量XCDF的反函數:

                     clip_image032[8]

                     其中,α[0,1]inf表示下界。

           性質:

                 1clip_image034[8]爲增函數

                 2)中值:clip_image036[8]

                 3)上下1/4分位數:clip_image038[8]clip_image040[8]

5.3散佈程度描述

5.3.1 方差

1k階矩

       隨機變量Xk階矩定義爲 E(Xk)

2)方差

       方差,即爲二階矩:

              clip_image042[8]

              clip_image044[14]

       標準差:

              clip_image046[8] 

 

 

3)實質

        刻畫隨機變量X圍繞均值的離散程度, 方差越大,X的變化越大。

(4)方差的性質

1clip_image044[15]

2a,b是常數,V(aX+b) = a2V(X)

3)若是X1,…,Xn相互獨立,a1,…,an爲常數,則clip_image048[8]

 

 

5.3.1四分位矩(IQR)

25%分位數到75%分位數之間的區間

 

3、  常見隨機變量機率分佈

1.   常見離散型隨機變量

1.1 二項分佈(Binomial

      n次試驗,事件發生的數目X知足二項分佈,記爲:x ~ Bin(n,θ):

              clip_image050[8]  其中,組合clip_image052[8]

 特性:

  (1)   指望:μ=nθ

  (2)   方差:V=nθ(1-θ)

1.2 Bernoulli分佈

       若是二次分佈只進行一次試驗,則爲Bernoulli分佈。Bernoulli分佈又名0-1分佈,若試驗成功則隨機變量X1,不然X0,成功的機率爲θ,即:

       P(X=1) = θP(X=0) = 1-θθ[0,1]

  參數爲θBernoulli分佈,記爲x ~ Ber(θ):

      clip_image054[8]

 

 

                  =clip_image056[8]  (其中,x=0,1)

  特性:

      (1)   指望:μ=θ

      (2)   方差:V=θ(1-θ)

1.3多項分佈(Multinomial

   假設某個試驗一共可能發生j個事件,第j個事件發生的機率爲θj,令θ= (θ1, …,θk),若是一共進行n次試驗,X=(x1, …, xk)爲隨機向量,其中xk表示事件發生次數,X的分佈爲多項分佈:x~Mu(n, θ)

clip_image058[8]

2.常見離散型隨機變量

2.1均勻分佈

X ~ Uniform(a, b):

clip_image060[8]

2.2高斯分佈

       X ~ N (μ, δ2 ):指望,δ2:方差):

        clip_image062[8]

  特性:

    (1)   高斯分佈的CDF

           clip_image064[8]

    (2)   μ=0δ2=1時,稱爲標準正態分佈,記爲Z ~ N(01),標準化:

               clip_image066[8]

2.3 Laplace分佈

拉布拉斯分佈的pdf

              clip_image068[8]

特性:

  (1)   指望:μ

  (2)   方差:2b2

  (3)   拉布拉斯分佈比高斯分佈更魯棒,高斯分佈對噪聲敏感。

2.4 Gamma分佈

       x ~ Ga(shape=a, rate=b)

              clip_image070[8]

       其中Γ(x)Gamma函數,a爲形狀參數,b爲比率度參數。

       或者:

clip_image072[8]

Gamma分佈(反Gamma分佈用於正態分佈方差的共軛先驗):

clip_image074[8]

clip_image076[8]

其中Gamma函數爲:

clip_image077[8]

       特性:

(1)   Gamma分佈

1)均值:a/b

2)衆數:(a-1)/b

3)方差:a/b2

(2)   Gamma分佈

1)均值:b/(a-1)

2)衆數:b/(a+1)

3)方差:b2/(a-1)2(a-2)

 

2.5 Beta分佈

       clip_image079[8]

       其中:

              clip_image081[8]

       特性:

1)均值:a/(a+b)

2)衆數:(a-1)/(a+b-2)

3)方差:(ab)/(a+b)2(a+b+1)

 

2.6 Dirichlet分佈

Beta分佈擴展到多維,即獲得Dirichlet分佈。其pdf

           clip_image083[8]

 

其中: 

clip_image085[8]

   注:Dirichlet分佈在文檔分析中的主題模型LDALatent Dirichlet Allocation )用到。

       特性:

              clip_image087[8]

2.7混合分佈

       混合分佈(mixture distribution)由一些組件(component)分佈構成,由哪一個組件分佈構成取決於從一個多項分佈中採樣的結果。每次實驗,樣本是:

       clip_image089[8]

其中p(c)是對各組件的一個多項(Multinomial)分佈.

 

2.8混合高斯模型

       高斯混合模型(Gaussian Mixture ModelGMM)是機率密度的萬能近似器(universal approximator),任何平滑的機率密度均可以用具備足夠多組件的高斯混合模型以任意精度逼近:

(1)   組件p(x|c=k)是高斯分佈

(2)   每一個組件用本身的參數:均值、方差-協方差矩陣

(3)   組件也能夠共享參數:每一個組件的方差-協方差矩陣相等

 

4、  抽樣分佈

1.   獨立同分布(IID

定義:

知足:

隨機變量X1…,XN互相獨立且有相同的邊緣分佈F(記爲X1…,XN ~ F)

的隨機變量X1…,XN,稱爲獨立同分布(Independent Identically Distribution, IID)樣本。

詮釋:

IID表示X1…,XN是從相同的分佈獨立抽樣,也稱X1…,XN是分佈F的隨機樣本,若F有密

p,也可記爲X1…,XN ~ F

2.抽樣分佈

       假設X1…,XN爲獨立同分布樣本(IID),其均值和方差分別爲μ和δ2。則樣本均值:

              clip_image091[14]

 

 

爲一統計量,也是隨機變量,所以也可對其進行分佈進行描述,該分佈稱爲統計量的抽樣分佈。

3.樣本均值和樣本方差

       假設X1…,XN爲獨立同分布樣本(IID),

       則樣本的指望爲:

              clip_image091[15]

 

 

       樣本的方差爲:

              clip_image093[14]

 

 

       又有隨機變量X1…,XN的指望μ=E(Xi),方差δ2=V(Xi),則有

              clip_image095[8]

      

 

 

    說明了clip_image097[14]clip_image099[14]分別爲μ和δ2的很好估計(無偏估計):樣本數N越大,樣本均值越接近隨機變量實際的均值μ。

4.弱大數定理(WLLN

       獨立同分布(IID)的隨機變量X1…,XN,其指望:μ=E(Xi),其方差:δ2=V(Xi)

(1)   樣本均值

clip_image100[14]

 

 

依機率收斂於指望μ,即對任意ε0,有:

clip_image102[8]

clip_image097[15]爲μ的一致估計。

(2)   樣本方差clip_image099[15]也依機率收斂於方差δ2

(3)   實質:當樣本的數量足夠大時,樣本的均值和方差收斂於隨機變量的指望和方差。

5.中心極限定理(Central Limit Theorem, CLT

       獨立同分布(IID)的隨機變量X1…,XN,其指望:μ=E(Xi),其方差:δ2=V(Xi)

       則樣本均值:

              clip_image100[15]   

 

 

近似服從指望爲μ,方差爲δ2/N的正態分佈,即

clip_image104[8]

其中Z爲標準正態分佈,記爲:clip_image106[8]

其中,標準差δ可用樣本的標準差代替,即

clip_image108[8]

其中

       clip_image093[15]

 

 

實質:任意隨機變量的分佈,其樣本均值近似服從正態分佈。

 

5、  分佈估計

1.參數估計

已知分佈的類型,但參數未知。

2.非參數估計

2.1直方圖估計

方法:

(1)   將輸入空間劃分爲M個箱子(bin), 箱子的寬度爲h=1/M,則這些箱子爲:

clip_image110[8]

(2)   計算落入箱子b中的樣本數目Vb,則落入箱子b的比率爲:

clip_image112[8]

 

(3)   則直方圖估計爲:

clip_image114[8]

I(x ∈  Bb) 表示落到箱子中的計數值。

 

       直方圖估計的缺點:箱中每一個樣本的權重相等,所以直方圖不連續。

2.2核密度估計

2.2.1基本思想

       每一個樣本的權重隨其到目標點的距離平滑衰減。

2.2.2核密度估計的定義

              clip_image116[8]

       其中,參數h稱爲帶寬(bandwidth)K爲任意平滑的核函數,其知足:

              clip_image118[8]

2.2.3實質

       對樣本點施以不一樣的權,用加權來代替一般的計數。

2.2.4常見的核函數

1Epanechnikov

              clip_image120[8]

使風險最小的核函數,亦被稱爲拋物面核或者叫作二次核函數。

2)高斯核

clip_image122[8]

2.3根據有限個統計量估計(極大熵原理)

2.3.1極大熵原理

       1)主要思想

    在只掌握關於未知分佈的部分知識時,應該選取符合這些知識但熵值最大的機率分佈。

2)實質

       約束:符合已知知識(特徵的統計量)

極大熵:關於未知分佈最合理的推斷 符合已知知識最不肯定或最隨機的推斷

2.3.2充分統計量

       1)統計量

               給定數據xN = (x1, …, xN) 假設其統計量爲:

                     clip_image124[8]

              例如:

                     clip_image126[8]

       2)充分統計量

                     統計量(向量)包含了計算參數所需的全部信息:

                       clip_image128[8]

                     只要知道了充分統計量,就能夠估計處出樣本。

2.3.3指數分佈族

       給定訓練樣本xN = (x1, …, xN) ~ p(x),使用極大熵原理,推導出其密度q(x)的估計:

(1)   獲得數據的M個統計量:

clip_image130[8]

(2)   當樣本數N增長時,樣本均值會接近真正的指望:

clip_image132[8]

咱們使用密度函數q(x)來估計p(x),則一個很合理的假設是這二者的指望相同:

clip_image134[8]

(3)   附加另一個約束:

clip_image136[8]

(4)   已知M+1個已知知識(約束),應該選取符合這些知識但熵值最大的機率分佈:

則知足最大熵狀況下的q(x)爲:

clip_image138[8]

且知足條件:

clip_image140[8]

clip_image141[8]

(5)   使用Lagrange乘子法求解上式:

clip_image143[8]

求解獲得:

clip_image145[8]

其中,Z爲歸一化常數,參數λ= (λ1, …, λM)

注意:

參數能夠經過MLE求解。選取的統計量越多,q(x)越接近p(x)。給定的N個有限的數據,MN,不然會過擬合。一般M=O(logN)

 

2.3.4一個極大熵的例子

若是咱們取兩個統計量:

              clip_image147[8]

       將獲得的指數分佈族爲高斯分佈:

              clip_image149[8]

所以高斯分佈是給定均值和協方差狀況下的最大熵分佈。

 

 

   - tany 2017年10月6日於杭州

 

 

人工智能從入門到專家教程資料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765

相關文章
相關標籤/搜索