目錄dom
1、 隨機向量及其分佈機器學習
1.多元向量的聯合分佈ide
1.1離散狀況函數
1.2連續狀況學習
2.多元向量的邊緣分佈人工智能
2.1離散狀況spa
2.2連續狀況orm
3.多元向量的條件分佈htm
4.貝葉斯規則blog
9.3 KL散度(Kullback-Leibler divergenc,KL divergence)
9.5最大信息係數(maximal information coefficient,MIC)
1.多元正態分佈(multivariate normal, MVN)
3.1樸素貝葉斯分類器(Naive Bayes Classifier, NBC)
多元隨機向量的分佈:在多個隨機變量組成的向量上定義的分佈。
假設D維隨機向量(X1, …, XD),其中Xj爲離散型隨機變量,則定義聯合機率質量函數(pmf)爲:
聯合機率分佈函數(CDF)爲:
假設D維隨機向量(X1, …, XD),其中Xj爲連續型隨機變量,則定義聯合機率密度函數(pdf)爲:
其中:
聯合機率分佈函數(CDF)爲:
對任意集合:
假設D維離散型隨機向量(X1, …, XD)有聯合質量函數p(X1, …, XD),則定義Xj的邊緣機率質量函數:
假設D維連續型隨機向量(X1, …, XD)有聯合質量函數p(X1, …, XD),則定義Xj的邊緣機率質量函數:
(1) 例如,對二維隨機變量(X,Y), 當p(y) > 0時,給定Y=y時X的條件分佈爲:
即:
(2) 鏈規則(Chain Rule)
例若有3個隨機變量時:
或者:
通常地,
若是Y能夠取值y1, …, yK,x爲X的一個取值,則:
(2) 貝葉斯規則:
若對向量中X,Y中全部的x, y,有:
或者:
則稱X與Y獨立,記做:X⊥Y
若對向量中X,Y,Z中全部的x, y, z,有:
或者
則稱X與Y條件獨立(即有條件的獨立),記做:X⊥Y | Z
若是隨機變量之間不獨立,可用協方差/相關係數來刻畫兩個隨機變量之間關係強弱:
性質:
(1)
協方差知足:
相關係數知足:
(2) 若是X,Y獨立,則:
(3) 協方差:
對任意兩個隨機變量X和Y,有:
推廣到多個隨機變量:
令隨機向量X的形式爲:X = (X1, …, XD)T,則方差-協方差矩陣定義爲:
當各個成分變量獨立時,協方差矩陣是一個對角矩陣。
(1)選擇最簡單的、能表示數據產生規律的模型
(2)模型選擇:最小描述長度準則
(3)特徵選擇:選擇與目標最相關的特徵
(1)熵是一種不肯定度的度量
(2)定義:
假設隨機變量X的分佈爲p,則該隨機變量的熵定義爲:
KL散度,又稱相對熵(relative entropy):一種度量兩個分佈p和q之間的差別的方法:
或者:
其中H(p, q)稱爲交叉熵:
互信息:度量聯合分佈p(X, Y)和因式分解形式p(X)P( Y)之間的類似度:
或者:
其中H(X|Y)或H(Y|X)稱爲條件熵(表示觀測到X後Y的不肯定性減小):
性質:
(1)互信息不小於0:
(2)當且僅當p(X, Y)= p(X)P( Y),即X 與Y獨立時,互信息爲0.
(3)在特徵選擇時,能夠經過計算特徵與目標之間的互信息,選擇與目標互信息最大的那些特徵,拋棄與目標關係不大的特徵。
(1)連續變量的互信息,需先離散化,再計算互信息。
(2)最大信息係數(MIC):以最優的方式離散化,並將互信息取值轉換成到[0,1]:
其中I(X(G);Y(G))爲某種離散方式, 箱子大小B建議爲N0.6,N爲樣本數目。
多元正太分佈的通常形式 :
其中,
指望:μ=E(x) , 協方差矩陣:Ʃ = E( (x-μ)T(x-μ) ),便可以寫成方差-協方差矩陣的形式。
協方差矩陣有D x (D-1)/2個獨立元素,是正定矩陣,
協方差矩陣的逆 = 精度
協方差矩陣的特徵值分解:
則Mahalanobis 距離(等於在翻轉座標系中的歐氏距離):
其中,yi = uiT (x -μ)
假設x隨機向量服從多元正態分佈:
則令y的分佈爲:
稱y已經被白化了,即已經服從了標準正態分佈:N(0,I)
在產生式分類器中:
使用高斯分佈做爲類條件分佈:
經過分析這個高斯分佈來肯定最佳的分佈的方法,叫高斯判別分析(GDA)。
例如,當協方差矩陣爲對角陣時,爲樸素貝葉斯分類器(各特徵獨立)。
(1) 當全部都相等時,判別邊界爲線性,稱爲線性判別分析(Linear Discriminant Analysis, LDA)
(2) 通常狀況下,判別邊界爲二次曲線
(3) 協方差決定了模型的複雜度(參數的數目)
利用隨機變量之間的條件獨立關係,能夠將隨機向量的聯合分佈分解爲一些因式的乘積,獲得簡潔的機率表示。
有向圖模型(directed graphical models,DGMs)使用帶有有向邊的圖,用條件機率分佈來表示分解:每一個隨機變量xi都包含着一個影響因子,這些影響因子被稱爲xi的父節點,記爲Pa (xi),則有向圖模型表示機率分解:
無向圖模型(undirected graphical model,UGM):使用帶有無向邊的圖,將聯合機率分解成一組函數的乘積。
圖中任何知足兩兩之間有邊鏈接的頂點的集合被稱爲團(clip),每一個團Ci都伴隨着一個因子: ɸi(Ci), 而且這些團必須知足:
(1)每一個因子的輸出都必須是非負的
(2)但不像機率分佈中那樣要求因子的和/積分爲1
則隨機向量的聯合機率能夠分解爲:全部這些因子的乘積:
其中歸一化常數Z被定義爲函數乘積的全部狀態的求和或積分,使得這些乘積的求和爲1(即便得p(x)爲一個合法的機率分佈)。
(1)原理:假設各維特徵在給定類別標籤的狀況下是條件獨立的。
(2)假設要進行分類,共有C個類別y∈ (1,2,…, C),每一個樣本有特徵x = (x1, …, xD),則給定類別標籤下的條件機率爲:
(3)進行分類(預測):
給定時間長度爲T 的序列X1,…, XT,則鏈規則:
即第t時刻的狀態Xt只與前t-1個時刻的狀態X1:t-1相關。
假設第t時刻的狀態Xt只與前一個時刻的狀態Xt-1相關,稱爲一階Markov假設,獲得的聯合分佈爲Markov鏈(或Markov模型):
當Xt∈(1,2,…,k)爲離散時,則條件分佈p(Xt|Xt-1)可表示爲一個K x K的矩陣|Aij|,稱爲轉移矩陣,其中:
表示從狀態i轉移到狀態j的機率,也稱爲叫作隨機矩陣。
若是系統的狀態不可見,只能觀測到由隱含狀態驅動的觀測變量,則可用隱馬爾可夫模型(Hidden Markov Model, HMM)表示聯合機率:
其中:
其中zt表示第t時刻的隱含狀態;
p(Zt|Zt-1)表示轉移模型;
p(Xt|Zt)表示觀測模型。
(1)定義
隨機場能夠當作是一組隨機變量的集合(這些隨機變量之間可能有依賴關係);
Markov隨機場:加了Markov性質限制的隨機場,可用無向圖表示。
(2)MRF的參數化
1)
無向圖中節點之間的邊沒有方向,不能用鏈規則表示聯合機率,而是用圖中每一個最大團C 的因子的乘積表示:
其中Z爲歸一化常數。
2)
或者,使用能量函數表示爲:
3)
或者,將log勢能函數表示爲一些函數的線性組合:
其中,組合權重爲Ɵ,ɸc爲根據變量yc獲得的特徵。
則log聯合分佈表示爲:
稱爲最大熵模型或log線性模型,在條件隨機場(CRF)、(受限)Boltzmann機(RBM)可用此形
式表示聯合機率。
條件隨機場(Conditional Random Field,CRF):
給定MRF中的每一個隨機變量下面還有觀測值,則給定觀測條件下MRF的分佈:
其中,x爲觀測集合。
- tany 2017年10月7日於杭州
人工智能從入門到專家教程資料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765