目錄app
1、 機率公理及推論ide
1. 聯合機率函數
2. 條件機率人工智能
3. 全機率公式spa
4. 貝葉斯公式component
2、 隨機變量及其分佈orm
1. 隨機變量htm
2. 累積分佈函數CDFblog
5.中心極限定理(Central Limit Theorem, CLT)
對任意兩個時間A和B,則有:
P(A , B) = P(A∩B) = P(B)P (A|B) = P(A)P (B|A)
當P(B)>0時,給定B發生時,A的條件機率是:
A1, …, AK爲A的一個子集,則對任意事件B,有:
注:能夠把B事件發生的機率看做是全部在A條件下發生B的機率的權重之和,P(A)能夠當作一個權重。
A1, …, AK爲A的一個子集,k=1,2, …,K。若P(B)>0,P(A)>0,則有
隨機變量是一個函數,將一個實數值映射到一個試驗的每個輸出。即將每個事件映射到衡量這個事件的每個數據。是隨機事件與數據之間的聯繫起來的紐帶:
f(事件) = 數據
f()稱爲隨機變量。
注:
1)數據是隨機變量的具體值
2)統計量是數據或者隨機變量的任何函數
3)任何隨機變量的函數仍然是隨機變量
設X爲一個隨機變量,x爲X的一具體值(即數據),則隨機變量X的累積分佈函數(cumulative
distribution function, CDF)的定義:
F(X) = P(X ≤ x ) (F:R->[0,1])
CDF包含了隨機變量的全部信息。
離散型隨機變量的機率函數(probability mass function, pmf))的定義:
p(x) = P(X=x)
性質:
1)對於全部x∈R,p(x) ≥ 0
連續型隨機變量X的機率密度函數(probability density function, pdf))的定義:
對全部的x知足:
則稱p爲機率密度函數。
性質:
1)p(x)沒必要≤1
2)CDF與pdf間的關係:
單值描述來刻畫某個分佈的性質:
(1) 位置描述
指望、中值、衆數、分位數
(2) 散佈程度描述
方差、四分位矩(IQR)
(1)實質
隨機變量的平均值,即機率的加權平均,一階矩。
(2)連續狀況下的定義:
(3)離散狀況下的定義:
(4)指望的性質
1)線性運算
E(aX + b) = aE(X) + b
2)加法規則
X1,…,Xn是隨機變量,a1,…,an是常數,則:
3)乘法規則
X1,…,Xn是相互獨立的隨機變量,則:
定義:隨機變量次數出現最多的位置,即隨機變量出現機率最大的位置:
設隨機變量X有密度p(x),存在x0知足:
則稱x0爲隨機變量X的衆數。
隨機變量的累積分佈函數(CDF)爲0.5時的隨機變量的值:
當P(X ≤ x0 ) = 0.5 時,x0稱爲隨機變量X的中值。
定義:分位數(分位函數quantile function)是隨機變量X的CDF的反函數:
其中,α∈[0,1],inf表示下界。
性質:
(1)k階矩
隨機變量X的k階矩定義爲 E(Xk)
(2)方差
方差,即爲二階矩:
標準差:
(3)實質
刻畫隨機變量X圍繞均值的離散程度, 方差越大,X的變化越大。
(4)方差的性質
2)a,b是常數,V(aX+b) = a2V(X)
25%分位數到75%分位數之間的區間
n次試驗,事件發生的數目X知足二項分佈,記爲:x ~ Bin(n,θ):
特性:
(1) 指望:μ=nθ
(2) 方差:V=nθ(1-θ)
若是二次分佈只進行一次試驗,則爲Bernoulli分佈。Bernoulli分佈又名0-1分佈,若試驗成功則隨機變量X取1,不然X取0,成功的機率爲θ,即:
P(X=1) = θ,P(X=0) = 1-θ,θ∈[0,1]
參數爲θ的Bernoulli分佈,記爲x ~ Ber(θ):
特性:
(1) 指望:μ=θ
(2) 方差:V=θ(1-θ)
假設某個試驗一共可能發生j個事件,第j個事件發生的機率爲θj,令θ= (θ1, …,θk),若是一共進行n次試驗,X=(x1, …, xk)爲隨機向量,其中xk表示事件發生次數,X的分佈爲多項分佈:x~Mu(n, θ)。
X ~ Uniform(a, b):
X ~ N (μ, δ2 ):(μ:指望,δ2:方差):
特性:
(1) 高斯分佈的CDF:
(2) 當μ=0,δ2=1時,稱爲標準正態分佈,記爲Z ~ N(0,1),標準化:
拉布拉斯分佈的pdf:
特性:
(1) 指望:μ
(2) 方差:2b2
(3) 拉布拉斯分佈比高斯分佈更魯棒,高斯分佈對噪聲敏感。
x ~ Ga(shape=a, rate=b):
其中Γ(x)爲Gamma函數,a爲形狀參數,b爲比率度參數。
或者:
反Gamma分佈(反Gamma分佈用於正態分佈方差的共軛先驗):
其中Gamma函數爲:
特性:
(1) Gamma分佈
1)均值:a/b
2)衆數:(a-1)/b
3)方差:a/b2
(2) 反Gamma分佈
1)均值:b/(a-1)
2)衆數:b/(a+1)
3)方差:b2/(a-1)2(a-2)
其中:
特性:
1)均值:a/(a+b)
2)衆數:(a-1)/(a+b-2)
3)方差:(ab)/(a+b)2(a+b+1)
將Beta分佈擴展到多維,即獲得Dirichlet分佈。其pdf爲
其中:
注:Dirichlet分佈在文檔分析中的主題模型LDA(Latent Dirichlet Allocation )用到。
特性:
混合分佈(mixture distribution)由一些組件(component)分佈構成,由哪一個組件分佈構成取決於從一個多項分佈中採樣的結果。每次實驗,樣本是:
其中p(c)是對各組件的一個多項(Multinomial)分佈.
高斯混合模型(Gaussian Mixture Model,GMM)是機率密度的萬能近似器(universal approximator),任何平滑的機率密度均可以用具備足夠多組件的高斯混合模型以任意精度逼近:
(1) 組件p(x|c=k)是高斯分佈
(2) 每一個組件用本身的參數:均值、方差-協方差矩陣
(3) 組件也能夠共享參數:每一個組件的方差-協方差矩陣相等
定義:
知足:
隨機變量X1,…,XN互相獨立且有相同的邊緣分佈F(記爲X1,…,XN ~ F)
的隨機變量X1,…,XN,稱爲獨立同分布(Independent Identically Distribution, IID)樣本。
詮釋:
IID表示X1,…,XN是從相同的分佈獨立抽樣,也稱X1,…,XN是分佈F的隨機樣本,若F有密
度p,也可記爲X1,…,XN ~ F
假設X1,…,XN爲獨立同分布樣本(IID),其均值和方差分別爲μ和δ2。則樣本均值:
爲一統計量,也是隨機變量,所以也可對其進行分佈進行描述,該分佈稱爲統計量的抽樣分佈。
假設X1,…,XN爲獨立同分布樣本(IID),
則樣本的指望爲:
樣本的方差爲:
又有隨機變量X1,…,XN的指望μ=E(Xi),方差δ2=V(Xi),則有
說明了和
分別爲μ和δ2的很好估計(無偏估計):樣本數N越大,樣本均值越接近隨機變量實際的均值μ。
獨立同分布(IID)的隨機變量X1,…,XN,其指望:μ=E(Xi),其方差:δ2=V(Xi)
(1) 樣本均值
依機率收斂於指望μ,即對任意ε>0,有:
(3) 實質:當樣本的數量足夠大時,樣本的均值和方差收斂於隨機變量的指望和方差。
獨立同分布(IID)的隨機變量X1,…,XN,其指望:μ=E(Xi),其方差:δ2=V(Xi)
則樣本均值:
近似服從指望爲μ,方差爲δ2/N的正態分佈,即
其中,標準差δ可用樣本的標準差代替,即
其中
實質:任意隨機變量的分佈,其樣本均值近似服從正態分佈。
已知分佈的類型,但參數未知。
方法:
(1) 將輸入空間劃分爲M個箱子(bin), 箱子的寬度爲h=1/M,則這些箱子爲:
(2) 計算落入箱子b中的樣本數目Vb,則落入箱子b的比率爲:
(3) 則直方圖估計爲:
其I(x ∈ Bb) 表示落到箱子中的計數值。
直方圖估計的缺點:箱中每一個樣本的權重相等,所以直方圖不連續。
每一個樣本的權重隨其到目標點的距離平滑衰減。
其中,參數h稱爲帶寬(bandwidth),K爲任意平滑的核函數,其知足:
對樣本點施以不一樣的權,用加權來代替一般的計數。
2.2.4常見的核函數
(1)Epanechnikov 核
使風險最小的核函數,亦被稱爲拋物面核或者叫作二次核函數。
(2)高斯核
(1)主要思想
在只掌握關於未知分佈的部分知識時,應該選取符合這些知識但熵值最大的機率分佈。
(2)實質
約束:符合已知知識(特徵的統計量)
極大熵:關於未知分佈最合理的推斷 = 符合已知知識最不肯定或最隨機的推斷
(1)統計量
給定數據xN = (x1, …, xN), 假設其統計量爲:
例如:
(2)充分統計量
統計量(向量)包含了計算參數所需的全部信息:
只要知道了充分統計量,就能夠估計處出樣本。
給定訓練樣本xN = (x1, …, xN) ~ p(x),使用極大熵原理,推導出其密度q(x)的估計:
(1) 獲得數據的M個統計量:
(2) 當樣本數N增長時,樣本均值會接近真正的指望:
咱們使用密度函數q(x)來估計p(x),則一個很合理的假設是這二者的指望相同:
(3) 附加另一個約束:
(4) 已知M+1個已知知識(約束),應該選取符合這些知識但熵值最大的機率分佈:
則知足最大熵狀況下的q(x)爲:
且知足條件:
(5) 使用Lagrange乘子法求解上式:
求解獲得:
其中,Z爲歸一化常數,參數λ= (λ1, …, λM)
注意:
參數能夠經過MLE求解。選取的統計量越多,q(x)越接近p(x)。給定的N個有限的數據,M<N,不然會過擬合。一般M=O(logN)。
若是咱們取兩個統計量:
將獲得的指數分佈族爲高斯分佈:
所以高斯分佈是給定均值和協方差狀況下的最大熵分佈。
- tany 2017年10月6日於杭州
人工智能從入門到專家教程資料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765