Prerequisite
HMM(隱馬爾科夫模型)
定義:
我們從一個模型,二個假設,三個問題去簡單認識下HMM。
其中
Y=(y1,y2,⋯,yT)T爲隱變量(狀態),
X=(x1,x2,⋯,xT)T爲觀測變量(輸出)。
一個模型:
是指HMM是由參數集合
λ=(π,A,B)決定的。其中
π是指
p(yi),即是初始狀態的概率向量。
A爲狀態轉移矩陣,即是
Aij=p(yt+1=qj∣yt=qi)。
B爲發射矩陣,即是
Bij=p(xi=vj∣yi=qi)。其中
q,v分別是
yi和xi的取值集合。
二個假設:
1.齊次馬爾科夫假設:
即是說,任意狀態
yi只會與前一狀態
yi−1有關,說:
P(yi∣x1,x2,⋯,xi−1,y1,y2,⋯,yi−1)=P(yi∣yi−1)
2.觀測獨立性假設:
即是說,任意觀測(輸出)只依賴於該時刻的狀態,說:
P(xi∣x1,x2,⋯,xi−1,y1,y2,⋯,yi−1,yi)=P(xi∣yi)
三個問題:
1.概率計算:
P(X∣λ)
2.學習問題:計算出
λ
3.預測問題:
P(Y∣X,λ)
存在的問題:
如果是在詞性標註問題中,那麼HMM的假設就過於嚴格了,因爲顯然詞性應該和整個文本都有關係。因此CRF就彌補了這一點。
CRF
其中
Y=(y1,y2,⋯,yT)T爲隱變量(狀態),
X=(x1,x2,⋯,xT)T爲觀測變量(輸入)。
定義:
CRF是指給定隨機變量集合X的條件下,Y隨機變量集合構成馬爾科夫隨機場,由其性質即是有:
P(Yv∣X,Yw,w=v)=P(YV∣X,Yw,w∼v)
其中v,w指隨機變量集合的第v,w個元素,w∼v表示與v有邊相連
等式的含義是,
Yv只與給定
X和與
v有邊相連的節點
w有關。
因子分解:
表示:
Markov隨機場的因子分解通式爲:
P(Y)=Z1i=1∏Nϕci(Yci)Z=Y∑i=1∏Nϕci(Yci)
其中,ci表示第i個最大團,Yci表示第i個最大團的隨機變量集合。Z是歸一化因子,使得∑YP(Y)=1。
爲了表示方便,引入了start和stop。
條件隨機場的因子分解:
這裏,我們定義
∏iNϕci(Yci)爲:
i∏Nϕci(Yci)=exp{t,k∑λktk(yt−1,yt,x,i)+t,l∑μlsl(yt,x,i)}
其中,tk,sl爲特徵函數,λk,μl爲權值
Z=Y∑exp{t,k∑λktk(yt−1,yt,x,i)+t,l∑μlsl(yt,x,i)}
化簡(向量形式):
其中:其中,t
,s
爲yi,yi−1的函數:則:P(Y)exp{t,k∑λktk(yt−1,yt,x,i)+t,l∑μlsl(yt,x,i)}=exp{t∑(k∑Kλktk(yt−1,yt,x,i)+t∑Lμlsl(yt,x,i))}λ=⎣⎢⎢⎢⎢⎢⎢⎡λ1λ2⋅⋅⋅λk⎦⎥⎥⎥⎥⎥⎥⎤t
=⎣⎢⎢⎢⎢⎢⎢⎡t1t2⋅⋅⋅tk⎦⎥⎥⎥⎥⎥⎥⎤μ=⎣⎢⎢⎢⎢⎢⎢⎡μ1μ2⋅⋅⋅μl⎦⎥⎥⎥⎥⎥⎥⎤s
=⎣⎢⎢⎢⎢⎢⎢⎡s1s2⋅⋅⋅sl⎦⎥⎥⎥⎥⎥⎥⎤t∑(k∑Kλktk(yt−1,yt,x,i)+l∑Lμlsl(yt,x,i))=t∑λTt
+μTs
=λTt∑t
+μTt∑s
令:θ=[λμ]H=[∑tt
∑ts
]=Z1exp{t,k∑λktk(yt−1,yt,x,i)+t,l∑μlsl(yt,x,i)}=Z1exp(θTH)
Z=Y∑exp(θTH)
求解問題:
邊緣概率求解
前向後向算法:
其主要思想就是找到關於勢函數的遞推式。
P(yt=a)=其中:ϕci(Yci)=ϕci(yi−1,yi)令:可以發現有:令:可以發現有:綜上有遞推式:那麼:y0,y1⋯yt−1,yt+1,⋯,yT∑Z1i∏Tϕci(Yci)=,yi)令:可以發現有:令:可以發現有:綜上有遞推式:那麼:y0,y1⋯yt−1,yt+1,⋯,yT∑Z1i∏Tϕci(Yci)=y0,y