最大熵馬爾科夫模型(MEMM)及其標籤偏置問題

 

定義:spa

MEMM是這樣的一個機率模型,即在給定的觀察狀態和前一狀態的條件下,出現當前狀態的機率。blog

 

 

Ø  S表示狀態的有限集合im

Ø  O表示觀察序列集合db

Ø  Pr(s|s­­’,o):觀察和狀態轉移機率矩陣img

Ø  初始狀態分佈:Pr0(s)

集合

 

注:O表示觀察集合,S表示狀態集合,M表示模型di

 

最大熵馬爾科夫模型(MEMM)的缺點:co

看下圖,由觀察狀態O和隱藏狀態S找到最有可能的S序列:360

路徑s1-s1-s1-s1的機率:0.4*0.45*0.5=0.09錯誤

路徑s2-s2-s2-s2的機率: 0.2*0.3*0.3=0.018

路徑s1-s2-s1-s2的機率: 0.6*0.2*0.5=0.06

路徑s1-s1-s2-s2的機率: 0.4*0.55*0.3=0.066

由此可得最優路徑爲s1-s1-s1-s1

實際上,在上圖中,狀態1偏向於轉移到狀態2,而狀態2總傾向於停留在狀態2,這就是所謂的標註偏置問題,因爲分支數不一樣,機率的分佈不均衡,致使狀態的轉移存在不公平的狀況。

由上面的兩幅圖可知,最大熵隱馬爾科夫模型(MEMM)只能達到局部最優解,而不能達到全局最優解,所以MEMM雖然解決了HMM輸出獨立性假設的問題,但卻存在標註偏置問題。

 

 

如圖所示,「由於」是介詞詞性p,而 MEMM卻錯誤標註其詞性爲連詞c。產生該狀況的緣由正是一種偏置問題。
緣由:「是」存在兩個詞性,動詞v和代詞r,包含在狀態集合S1中;「由於」包括兩個詞性,介詞p與連詞c,包含在狀態集合S2中;「事」只有一個詞性,名詞n,包含在狀態集合S3中。因爲MEMM對每一個狀態均定義一個指數模型,所以有:P(n|p)=1, P(n|c)=1, P(p|S1)+P(c|S1)=1; 基於馬爾科夫假設,
P(S1, p, n)=P(p|S1)*P(n|p)=P(p|S1), 同理,P(S1, c, n)=P(c|S1)*P(n|c)=P(c|S1)。所以S2選擇p節點仍是c節點只取決於P(p|S1)、P(c|S1), 即只與「是」的上下文有關,與「由於」的上下文無關,這即便MEMM產生偏置的一種狀況。
相關文章
相關標籤/搜索