豬豬的機器學習(十三)貝葉斯網絡

貝葉斯網絡

做者:櫻花豬算法

摘要網絡

本文爲七月算法(julyedu.com12月機器學習第十三次次課在線筆記。貝葉斯網絡又稱信度網絡,是Bayes方法的擴展,是目前不肯定知識表達和推理領域最有效的理論模型之一。貝葉斯網絡適用於表達和分析不肯定性和機率性的事件,應用於有條件地依賴多種控制因素的決策,能夠從不徹底、不精確或不肯定的知識或信息中作出推理。本節課從樸素貝葉斯模型開始,詳細描述了貝葉斯網絡的意義,構建方案以及其餘衍生算法。機器學習

 

引言ide

貝葉斯網絡是機器學習中很是經典的算法之一,它可以根據已知的條件來估算出不肯定的知識,應用範圍很是的普遍。貝葉斯網絡以貝葉斯公式爲理論接觸構建成了一個有向無環圖,咱們能夠經過貝葉斯網絡構建的圖清晰的根據已有信息預測將來信息。函數

本次課程從樸素貝葉斯開始分享了貝葉斯網絡的構建方案、貝葉斯網絡中獨立條件的判斷以及咱們熟悉的馬爾科夫模型、馬爾科夫毯等。這一張理論基礎不太強,多爲理解內容。學習

 

預備知識測試

最大熵模型、機率統計spa

1、樸素貝葉斯3d

1、樸素貝葉斯假設(與貝葉斯網絡區別orm

一個特徵出現的機率,與其餘特徵(條件)獨立(特徵獨立性),實際上是:對於給定分類的條件下,特徵獨立

每一個特徵同等重要(特徵均衡性)

例子:文本分類問題:

樣本:10000封郵件,每一個郵件被標記爲垃圾郵件或者非垃圾郵件

分類目標:給定第10001封郵件,肯定它是垃圾郵件仍是非垃圾郵件

方法:樸素貝葉斯

類別c:垃圾郵件c1,非垃圾郵件c2

詞彙表,兩種創建方法:

1、使用現成的單詞詞典;2、將全部郵件中出現的單詞都統計出來,獲得詞典。

記單詞數目爲N

將每一個郵件m映射成維度爲N的向量xn

若單詞wi在郵件m中出現過,則xi=1,不然,xi=0。即郵件的向量化:m-->(x1,x2……xN)o

貝葉斯公式:P(c|x)=P(x|c)*P(c)/P(x)

P(c1|x)=P(x|c1)*P(c1)/P(x)

P(c2|x)=P(x|c2)*P(c2)/P(x)

注意這裏x是向量

(c|x)=P(x|c)*P(c)/P(x)

P(x|c)=P(x1,x2xN|c)=P(x1|c)*P(x2|c)P(xN|c)

特徵條件獨立假設

P(x)=P(x1,x2xN)=P(x1)*P(x2)P(xN)

特徵獨立假設

帶入公式:P(c|x)=P(x|c)*P(c)/P(x)

o等式右側各項的含義:

nP(xi|cj):在cj(此題目,cj要麼爲垃圾郵件1,要麼爲非垃圾郵件2)的前提下,第i個單詞xi出現的機率

nP(xi):在全部樣本中,單詞xi出現的機率

nP(cj):在全部樣本中,郵件類別cj出現的機率

 

拉普拉斯平滑(防止是0的狀況)

p(x1|c1)是指的:在垃圾郵件c1這個類別中,單詞x1出現的機率。(x1是待考察的郵件中的某個單詞)

定義符號:

n1:在全部垃圾郵件中單詞x1出現的次數。若是x1沒有出現過,則n1=0

nn:屬於c1類的全部文檔的出現過的單詞總數目。

o獲得公式:

o拉普拉斯平滑:

n其中,N是全部單詞的數目。修正分母是爲了保證機率和爲1

同理,以一樣的平滑方案處理p(x1)

 

2、貝葉斯網絡

把某個研究系統中涉及的隨機變量,根據是否條件獨立繪製在一個有向圖中,就造成了貝葉斯網絡。

貝葉斯網絡,又稱有向無環圖模型(DAG),是一種機率圖模型,根據機率圖的拓撲結構,考察一組隨機變量{X1,X2...Xn}及其n組條件機率分佈(CPD)的性質。

通常而言,貝葉斯網絡的有向無環圖中的節點表示隨機變量,它們能夠是可觀察到的變量,或隱變量、未知參數等。鏈接兩個節點的箭頭表明此兩個隨機變量是具備因果關係(或非條件獨立)。若兩個節點間以一個單箭頭鏈接在一塊兒,表示其中一個節點是「因(parents)」,另外一個是「果(children)」,兩節點就會產生一個條件機率值。

每一個結點在給定其直接前驅時,條件獨立於其非後繼。

 

貝葉斯網絡的形式化定義:

BN(G,Θ)

G:有向無環圖

G的結點:隨機變量

G的邊:結點間的有向依賴

nΘ:全部條件機率分佈的參數集合n結點X的條件機率:P(X|parent(X))

2、馬爾科夫模型

貝葉斯網絡簡化造成一條鏈式模型,Ai+1只與Ai有關,與A1,,Ai-1無關

 

隱馬爾科夫模型:

 

 

3、經過貝葉斯網絡判斷條件獨立:

Tail-to-tail

Head-to-tail

Head-to-head

(C阻斷)

 

4、貝葉斯網絡的構建

依次計算每一個變量的D-separation的局部測試結果,綜合每一個結點獲得貝葉斯網絡。

算法過程:

選擇變量的一個合理順序X1,X2,...Xn

對於i=1n

o在網絡中添加Xi結點

X1,X2,...Xi-1中選擇Xi的父母,使得:

 

o這種構造方法,顯然保證了全局的語義要求:(

 

問題,若是碰到了混合(離散+連續)的網絡怎麼辦-->信號函數離散化



相關文章
相關標籤/搜索