統計學習方法李航---第11章條件隨機場

時間 2019-11-18

標籤統計學習方法條件隨機简体版

原文原文鏈接

第11章條件隨機場

條件隨機場(conditional random field, CRF)是給定一組輸入隨機變量條件下另外一組輸出隨機變量的條件機率分佈模型，其特色是假設輸出隨機變量構成馬爾可夫隨機場。條件隨機場能夠用於不一樣的預測問題，本章主要講述線性鏈(linear chain)條件隨機場在標註問題的應用，這時問題變成了由輸入序列對輸出序列預測的判別模型，形式爲對數線性模型，其學習方法一般是極大似然估計或正則化的極大似然估計。

11.1 機率無向圖模型

機率無向圖模型(probabilistic undireoted graphical model)，又稱爲馬爾可夫隨機場(Markov random field)，是一個能夠由無向圖表示的聯合機率分佈。

模型定義node

圖(graph)是由結點(node)及鏈接結點的邊(edge)組成的集合。結點和邊分別記做 v 和 e，結點和邊的集合分別記做 V 和 E，圖記做

G=(V,E)。無向圖是指邊沒有方向的圖。

機率圖模型(probabilistic graphical model)是由圖表示的機率分佈。設有聯合機率分佈P(Y)，Y是一組隨機變量。由無向圖G=(V,E)表示機率分佈P(Y)，即在圖G中，每一個結點 v 表示一個隨機變量Y_v；每條邊e表示隨機變量之間的機率依賴關係。算法

給定一個聯合機率分佈P(Y)和表示它的無向圖G。首先定義無向圖表示的隨機變量之間存在的成對馬爾可夫性(pairwise Markov property)、局部馬爾可夫性(local Markov properly)和全局馬爾可夫性(global Markov property)。

成對馬爾可夫性：設u和v是無向圖G中任意兩個沒有邊鏈接的結點，結點u和v分別對應隨機變量Y_u和Y_v，其餘全部結點爲O，對應的隨機變量組是Y_O。成對馬爾可夫性是指給定隨機變量組Y_O的條件下隨機變量Y_u和Y_v是條件獨立的，即dom

局部馬爾可夫性：設v是無向圖G中任意一個結點，W是與v有邊鏈接的全部結點，O是v, W之外的其餘全部結點。分別表示隨機變量Y_v，以及隨機變量組Y_W和Y_O。局部馬爾可夫性是指在給定隨機變量組Y_W的條件下隨機變量Y_v與隨機變量組Y_O是獨立的，即函數

全局馬爾可夫性:設結點集合A, B是在無向圖G中被結點集合C分開的任意結點集合，如圖11.2所示。結點集合A, B和C所對應的隨機變量組分別是Y_A，Y_B和Y_C。全局馬爾可夫性是指給定隨機變量組Y_C條件下隨機變量組Y_A，Y_B是條件獨立的，即學習

上述成對的、局部的、全局的馬爾可夫性定義是等價的。

定義11.1（機率無向圖模型） 設有聯合機率分佈P(Y)由無向圖G=(V,E)表示，在圖G中，結點表示隨機變量，邊表示隨機變量之間的依賴關係。若是聯合機率分佈P(Y)知足成對、局部或全局馬爾可夫性，就稱此聯合機率分佈爲概率無向圖模型(probability undirected graphical model)，或馬爾可夫隨機場C Markovrandom field )。優化

對給定的機率無向圖模型，咱們但願將總體的聯合機率寫成若干子聯合概率的乘積的形式，也就是將聯合機率進行因子分解，這樣便於模型的學習與計算。事實上，機率無向圖模型的最大特色就是易於因子分解。

機率無向圖模型的因子分解spa

定義11.2 (團與最大團) 無向圖G中任何兩個結點均有邊鏈接的結點子集稱爲團(clique)。若C是無向圖G的一個團，井且不能再加進任何一個G的結點使其成爲一個更大的團，則稱此C爲最大團(maximal clique)。例，

圖11.3表示由4個結點組成的無向圖。圖中由2個結點組成的團有5個：{ Y ₁ ,Y ₂ ,Y ₃ ,Y ₄ }， { Y ₂ ,Y ₃ }，{ Y ₃ ,Y ₄ }，{ Y ₄ ,Y ₂ }和{ Y ₁ ,Y ₃ }。有2個最大團{ Y ₁ ,Y ₂ ,Y ₃ }和{ Y ₂ ,Y ₃ ,Y ₄ }。而 { Y ₁ ,Y ₂ ,Y ₃ ,Y ₄ }不是一個團，由於 Y ₁ 和 Y ₄ 沒有邊鏈接.

將機率無向圖模型的聯合機率分佈表示爲其最大團上的隨機變量的函數的乘積形式的操做，稱爲機率無向圖模型的因子分解(factorization)。

給定機率無向圖模型，設其無向圖爲G，C爲G上的最大團，Y _C表示C對應的隨機變量。那麼機率無向圖模型的聯合機率分佈P(Y)可寫做圖中全部最大團C上的函數

的乘積形式，即

其中，Z是規範化因子(normalization factor)，

規範化因子保證P(Y)構成一個機率分佈，函數

稱爲勢函數(potenrial function)，要求是嚴格正的，一般定義爲指數函數：

定理11.1 (Hammersley-CIifford定理) 機率無向圖模型的聯合機率分佈 P(Y)能夠表示爲以下形式:

C是無向圖的最大團， Y _C 是C的結點對應的隨機變量，

是C上定義的嚴格正函數，乘積是在無向圖全部的最大團上進行的。

11.2條件隨機場的定義與形式

條件隨機場的定義orm

條件隨機場(conditional random field)是給定隨機變量X條件下，隨機變量 Y的馬爾可夫隨機場。這裏主要介紹定義在線性鏈上的特殊的條件隨機場，稱爲線性鏈條件隨機場(linear chain conditional random field )。在條件機率模型P(Y|X)中，Y是輸出變量，表示標記

序列，也把標記序列稱爲狀態序列， X是輸入變量，表示須要標註的觀測序列。學習時，利用訓練數據集經過極大似然估計或正則化的極大似然估計獲得條件機率模型；預測時，對於給定的輸入序列x，求出條件機率最大的輸出序列。

定義11.3 (條件隨機場) 設X與Y是隨機變量，P(Y | X)是在給定X的條件下Y的條件機率分佈。若隨機變量Y構成一個由無向圖G=(V,E)表示的馬爾可夫隨機場，即

對任意結點v成立，則稱條件機率分佈P(Y|X)爲條件隨機場。式中w~v表示在圖G=(V,E)中與結點v有邊鏈接的全部結點w，w ！= v表示結點v之外的全部結點， Y _v ， Y _u 與 Y _w 爲結點v，u與w對應的隨機變量。

現實中，通常假設X和Y有相同的圖結構。線性鏈條件隨機場的狀況爲

在此狀況下，最大團是相鄰兩個結點的集合。以下圖所示

定義11.4(線性鏈條件隨機場) 設X=(X ₁,X ₂,...,X _n)，Y= (Y ₁ ,Y ₂ ,...,Y _n ) 爲線性鏈表示的隨機變量序列，若在給定隨機變量序列X的條件下，隨機變量序列Y的條件機率分佈P(Y I X)構成條件隨機場。即知足馬爾可夫性

則稱P(Y I X)爲線性鏈條件隨機場。

條件隨機場的參數化形式blog

即因子分解式，各因子是定義在相鄰兩個結點上的函數。

定理11.2(線性鏈條件隨機場的參數化形式) 設P(Y}X)爲線性鏈條件隨機場，則在隨機變量X取值爲x的條件下，隨機變量Y取值爲Y的條件機率具備以下形式:

式中，t _k和s _l是特徵函數，

和 u _l 是對應的權值.Z(x)是規範化因子，求和是在全部可能的輸出序列上進行的..

上式是線性鏈條件隨機場模型的基本形式，表示給定輸入序列x，對輸出序列y預測的條件機率。 t _k 是定義在邊上的特徵函數，稱爲轉移特徵，依賴於當前和前一個位置， s _l 是定義在結點上的特徵函數，稱爲狀態特徵，依賴於當前位置。二者,都依賴於位置，是局部特徵函數。一般，特徵函數 t _k 和s _l 取值爲1或0；當知足特徵條件時取值爲1，不然爲0。條件隨機場徹底由特徵函數和對應的權值肯定。

條件隨機場的簡化形式get

能夠對同一個特徵在各個位置求和，將局部特徵函數轉化爲一個全局特徵函數，這樣就能夠將條件隨機場寫成權值向量和特徵向量的內積形式，即條件隨機場的簡化形式。

首先將轉移特徵和狀態特徵及其權值用統一的符號表示。設有K ₁ 個轉移特徵，K₂個狀態特徵，K= K ₁ + K ₂ ,，記

而後，對轉移與狀態特徵在各個位置i求和，記做

對應的權值爲，

條件隨機場爲，

以向量形式表示爲，

則條件隨機場的向量形式爲

條件隨機場的矩陣形式

引進特殊的起點和終點狀態標記y ₀ =start , y _n+1 =stop。對觀測序列x的每個位置i，定義一個m階矩陣(m是標記y_i 取值的個數)

條件機率爲