第11章 條件隨機場
條件隨機場(conditional random field, CRF)是給定一組輸入隨機變量條件下
另外一組輸出隨機變量的條件機率分佈模型,其特色是假設輸出隨機變量構成馬爾
可夫隨機場。條件隨機場能夠用於不一樣的預測問題,本章
主要講述線性鏈(linear chain)條件隨機場
在標註問題的
應用
,這時問題變成了由輸入
序列對輸出序列預測的判別模型,形式爲對數線性模型,其學習方法一般是極
大似然估計或正則化的極大似然估計。
11.1 機率無向圖模型
機率無向圖模型(probabilistic undireoted graphical model),又稱爲馬爾可夫
隨機場(Markov random field),是一個能夠由無向圖表示的聯合機率分佈。
模型定義node
圖(graph)是由結點(node)及鏈接結點的邊(edge)組成的集合。結點和邊
分別記做 v 和 e,結點和邊的集合分別記做 V 和 E,圖記做
G=(V,E)。無向圖是
指邊沒有方向的圖。
機率圖模型(probabilistic graphical model)是由圖表示的機率分佈。設有聯合機率分佈P(Y),Y是一組隨機變量。由無向圖G=(V,E)表示機率分佈P(Y),即在圖G中,每一個結點 v 表示一個隨機變量Yv;每條邊e表示隨機變量之間的機率依賴關係。算法
給定一個聯合機率分佈P(Y)和表示它的無向圖G。首先定義無向圖表示的
隨機變量之間存在的成對馬爾可夫性(pairwise Markov property)、局部馬爾可夫
性(local Markov properly)和全局馬爾可夫性(global Markov property)。
成對馬爾可夫性:設u和v是無向圖G中任意兩個沒有邊鏈接的結點,結點u和v分別對應隨機變量Yu和Yv,其餘全部結點爲O,對應的隨機變量組是YO。成對馬爾可夫性是指給定隨機變量組YO的條件下隨機變量Yu和Yv是條件獨立的,即dom
局部馬爾可夫性:設v是無向圖G中任意一個結點,W是與v有邊鏈接的全部結點,O是v, W之外的其餘全部結點。分別表示隨機變量Yv,以及隨機變量組YW和YO。局部馬爾可夫性是指在給定隨機變量組YW的條件下隨機變量Yv與隨機變量組YO是獨立的,即函數
全局馬爾可夫性:設結點集合A, B是在無向圖G中被結點集合C分開的任意結點集合,如圖11.2所示。結點集合A, B和C所對應的隨機變量組分別是YA,YB和YC。全局馬爾可夫性是指給定隨機變量組YC條件下隨機變量組YA,YB是條件獨立的,即學習
上述成對的、局部的、全局的馬爾可夫性定義是等價的。
定義11.1(機率無向圖模型) 設有聯合機率分佈P(Y)由無向圖G=(V,E)表示,在圖G中,結點表示隨機變量,邊表示隨機變量之間的依賴關係。若是聯合機率分佈P(Y)知足成對、局部或全局馬爾可夫性,就稱此聯合機率分佈爲概率無向圖模型(probability undirected graphical model),或馬爾可夫隨機場C Markovrandom field )。優化
對給定的機率無向圖模型,咱們但願將總體的聯合機率寫成若干子聯合概
率的乘積的形式,也就是將聯合機率進行因子分解,這樣便於模型的學習與計
算。事實上,機率無向圖模型的最大特色就是易於因子分解。
機率無向圖模型的因子分解spa
定義11.2 (團與最大團) 無向圖G中任何兩個結點均有邊鏈接的結點子集
稱爲團(clique)。若C是無向圖G的一個團,井且不能再加進任何一個G的結點
使其成爲一個更大的團,則稱此C爲最大團(maximal clique)。例,
圖11.3表示由4個結點組成的無向圖。圖中由2個結點組成的團有5個:{
Y
1
,Y
2
,Y
3
,Y
4
},
{
Y
2
,Y
3
},{
Y
3
,Y
4
},{
Y
4
,Y
2
}和{
Y
1
,Y
3
}。有2個最大團{
Y
1
,Y
2
,Y
3
}和{
Y
2
,Y
3
,Y
4
}。而
{
Y
1
,Y
2
,Y
3
,Y
4
}不是一個團,由於
Y
1
和
Y
4
沒有邊鏈接.
將機率無向圖模型的聯合機率分佈表示爲其最大團上的隨機變量的函數的
乘積形式的操做,稱爲機率無向圖模型的因子分解(factorization)。
給定機率無向圖模型,設其無向圖爲G,C爲G上的最大團,Y
C表示C對
應的隨機變量。那麼機率無向圖模型的聯合機率分佈P(Y)可寫做圖中全部最大
團C上的函數
的乘積形式,即
其中,Z是規範化因子(normalization factor),
規範化因子保證P(Y)構成一個機率分佈,函數
稱爲勢函數(potenrial
function),要求是嚴格正的,一般定義爲指數函數:
定理11.1 (Hammersley-CIifford定理)
機率無向圖模型的聯合機率分佈
P(Y)能夠表示爲以下形式:
C是無向圖的最大團,
Y
C
是C的結點對應的隨機變量,
是C上定
義的嚴格正函數,乘積是在無向圖全部的最大團上進行的。
11.2條件隨機場的定義與形式
條件隨機場的定義orm
條件隨機場(conditional random field)是給定隨機變量X條件下,隨機變量
Y的馬爾可夫隨機場。這裏主要介紹定義在線性鏈上的特殊的條件隨機場,稱爲
線性鏈條件隨機場(linear chain conditional random field )。
在條件機率模型P(Y|X)中,Y是輸出變量,表示標記
序列,
也把標記序列稱爲狀態序列,
X是輸入變量,表示須要標註的觀測序列
。學習時,利用訓練數據集經過極大似然估計或正則化的極大
似然估計獲得條件機率模型;預測時,對於給定的輸入序列x,求出條
件機率最大的輸出序列。
定義11.3 (條件隨機場) 設X與Y是隨機變量,P(Y | X)是在給定X的條
件下Y的條件機率分佈。若隨機變量Y構成一個由無向圖G=(V,E)表示的馬爾
可夫隨機場,即
對任意結點v成立,則稱條件機率分佈P(Y|X)爲條件隨機場。式中w~v表示在
圖G=(V,E)中與結點v有邊鏈接的全部結點w,w != v表示結點v之外的全部結
點,
Y
v
,
Y
u
與
Y
w
爲結點v,u與w對應的隨機變量。
現實中,通常假設X和Y有相同的圖結構。
線性鏈條件隨機場
的狀況爲
在此狀況下,最大團是相鄰兩個結點的
集合。以下圖所示
定義11.4(線性鏈條件隨機場) 設X=(X
1,X
2,...,X
n),Y=
(Y
1
,Y
2
,...,Y
n
)
爲線性鏈表示的隨機變量序列,若在給定隨機變量序列X的條件下,隨機變量序
列Y的條件機率分佈P(Y I X)構成條件隨機場。即知足馬爾可夫性
則稱P(Y I X)爲線性鏈條件隨機場
。
條件隨機場的參數化形式blog
即因子分解式,各因子
是定義在相鄰兩個結點上的函數。
定理11.2(線性鏈條件隨機場的參數化形式) 設P(Y}X)爲線性鏈條件隨
機場,則在隨機變量X取值爲x的條件下,隨機變量Y取值爲Y的條件機率具備
以下形式:
式中,t
k和s
l是特徵函數,
和
u
l
是對應的權值.Z(x)是規範化因子,求和是
在全部可能的輸出序列上進行的..
上式是線性鏈條件隨機場模型的基本形式,表示給定輸入
序列x,對輸出序列y預測的條件機率。
t
k
是定義在邊
上的特徵函數,稱爲轉移特徵,依賴於當前和前一個位置,
s
l
是定義在結點上的
特徵函數,稱爲狀態特徵,依賴於當前位置。二者,都依賴於位置,是局部特徵
函數。一般,特徵函數
t
k
和s
l
取值爲1或0;當知足特徵條件時取值爲1,不然
爲0。條件隨機場徹底由特徵函數和對應的權值肯定。
條件隨機場的簡化形式get
能夠對同一個特徵在各個位置求和,將局部特徵函數轉化
爲一個全局特徵函數,這樣就能夠將條件隨機場寫成權值向量和特徵向量的內積
形式,即條件隨機場的簡化形式。
首先將轉移特徵和狀態特徵及其權值用統一的符號表示。設有K
1
個轉移特徵,K2個狀態特徵,K=
K
1
+
K
2
,,記
而後,對轉移與狀態特徵在各個位置i求和,記做
對應的權值爲,
條件隨機場爲,
以向量形式表示爲,
則條件隨機場的向量形式爲
條件隨機場的矩陣形式
引
進特殊的起點和終點狀態標記y
0
=start , y
n+1
=stop。
對觀測序列x的每個位置i,定義一個m階矩陣(m是標記yi
取值的個數)
條件機率爲
注意,
y
0
=start , y
n+1
=stop
表示開始狀態與終止狀態,Zw(x)是
以start爲起點stop爲終點經過狀態的全部路徑y1,y2,...,yn的非規範化機率
之和。
11.3 條件隨機場的機率計算問題
條件隨機場的機率計算問題是給定條件隨機場P(YIX),輸入序列x和輸出
序列Y,計算條件機率P(Yi=yi | x ),P(
Y
i-1
=y
i-1
,
Y
i
=y
i
| x
)以及相應的數學指望
的問題。
前向-後向算法
對每一個指標i = 0,1,...,n + 1,定義前向向量
a
i(y
i | x)表示在位置i的標記是
y
i
而且到位置i的前部分標記序列的非規範化概
率,
y
i
可取的值有m個,因此
a
i
是m維列向量。
定義後向向量
表示在位置i的標記是
y
i
而且從i+1到n的後部分標記序列的非規範化概
率
。
能夠獲得
按照前向-後向向量的定義,很容易計算標記序列在位置i是標記
y
i
的條件概
率和在位置i-1與i是標記
y
i-1
和
y
i
的條件機率:
利用前向-後向向量,能夠計算特徵函數關於聯合分佈P(X,Y)和條件分佈
P(Y I X)的數學指望。
對於給定的觀測序列x與標記序列Y,能夠通
過一次前向掃描和一次後向掃描計算全部的概
率和特徵的指望。
11.4 條件隨機場的學習算法
條件隨機場模型其實是定義在時序數據上的對數線形模型,其學習
方法包括極大似然估計和正則化的極大似然估計。
改進的迭代尺度法
經過極大化訓練數據的對數似然函數來求模型參數。
條件隨機場模型的訓練數據的對數似然函數爲
改進的迭代尺度法經過迭代的方法不斷優化對數似然函數改變量的下界,達到極大化對數似然函數的目的。
推導可得,
關於轉移特徵的更新方程爲
T(x,y)是在數據(x,y)中出現全部特徵數的總和:
擬牛頓法
對於條件
隨機場模型,
學習的優化目標函數是
其梯度函數是
11.5 條件隨機場的預測算法
條件隨機場的預測問題是給定條件隨機場P(Y | X)和輸入序列(觀測序列)x,
求條件機率最大的輸出序列(標記序列) y*,即對觀測序列進行標註。
根據條件隨機場的向量形式,
因而,條件隨機場的預測問題成爲求非規範化機率最大的最優路徑問題
根據維特比算法進行求解。