(EM算法)The EM Algorithm(轉)

 EM是我一直想深刻學習的算法之一,第一次據說是在NLP課中的HMM那一節,爲了解決HMM的參數估計問題,使用了EM算法。在以後的MT中的詞對齊中也用到了。在Mitchell的書中也提到EM能夠用於貝葉斯網絡中。算法

下面主要介紹EM的整個推導過程。網絡

1. Jensen不等式

      回顧優化理論中的一些概念。設f是定義域爲實數的函數,若是對於全部的實數x,clip_image002,那麼f是凸函數。當x是向量時,若是其hessian矩陣H是半正定的(clip_image004),那麼f是凸函數。若是clip_image006或者clip_image008,那麼稱f是嚴格凸函數。函數

      Jensen不等式表述以下:學習

      若是f是凸函數,X是隨機變量,那麼優化

      clip_image010

      特別地,若是f是嚴格凸函數,那麼clip_image012當且僅當clip_image014,也就是說X是常量。spa

      這裏咱們將clip_image016簡寫爲clip_image018blog

      若是用圖表示會很清晰:ip

      clip_image019

      圖中,實線f是凸函數,X是隨機變量,有0.5的機率是a,有0.5的機率是b。(就像擲硬幣同樣)。X的指望值就是a和b的中值了,圖中能夠看到clip_image010[1]成立。ci

      當f是(嚴格)凹函數當且僅當-f是(嚴格)凸函數。get

      Jensen不等式應用於凹函數時,不等號方向反向,也就是clip_image021

2. EM算法

      給定的訓練樣本是clip_image023,樣例間獨立,咱們想找到每一個樣例隱含的類別z,能使得p(x,z)最大。p(x,z)的最大似然估計以下:

      clip_image024

      第一步是對極大似然取對數,第二步是對每一個樣例的每一個可能類別z求聯合分佈機率和。可是直接求clip_image026通常比較困難,由於有隱藏變量z存在,可是通常肯定了z後,求解就容易了。

      EM是一種解決存在隱含變量優化問題的有效方法。居然不能直接最大化clip_image028,咱們能夠不斷地創建clip_image030的下界(E步),而後優化下界(M步)。這句話比較抽象,看下面的。

      對於每個樣例i,讓clip_image032表示該樣例隱含變量z的某種分佈,clip_image032[1]知足的條件是clip_image034。(若是z是連續性的,那麼clip_image032[2]是機率密度函數,須要將求和符號換作積分符號)。好比要將班上學生聚類,假設隱藏變量z是身高,那麼就是連續的高斯分佈。若是按照隱藏變量是男女,那麼就是伯努利分佈了。

能夠由前面闡述的內容獲得下面的公式:

      clip_image035

      (1)到(2)比較直接,就是分子分母同乘以一個相等的函數。(2)到(3)利用了Jensen不等式,考慮到clip_image037是凹函數(二階導數小於0),並且

      clip_image038

      就是clip_image039的指望(回想指望公式中的Lazy Statistician規則)

      設Y是隨機變量X的函數clip_image041(g是連續函數),那麼

      (1) X是離散型隨機變量,它的分佈律爲clip_image043,k=1,2,…。若clip_image045絕對收斂,則有

      clip_image047

      (2) X是連續型隨機變量,它的機率密度爲clip_image049,若clip_image051絕對收斂,則有

      clip_image053

      對應於上述問題,Y是clip_image039[1],X是clip_image055clip_image057clip_image059,g是clip_image055[1]clip_image039[2]的映射。這樣解釋了式子(2)中的指望,再根據凹函數時的Jensen不等式:

      clip_image060

能夠獲得(3)。

      這個過程能夠看做是對clip_image028[1]求了下界。對於clip_image032[3]的選擇,有多種可能,那種更好的?假設clip_image026[1]已經給定,那麼clip_image028[2]的值就決定於clip_image057[1]clip_image062了。咱們能夠經過調整這兩個機率使下界不斷上升,以逼近clip_image028[3]的真實值,那麼何時算是調整好了呢?當不等式變成等式時,說明咱們調整後的機率可以等價於clip_image028[4]了。按照這個思路,咱們要找到等式成立的條件。根據Jensen不等式,要想讓等式成立,須要讓隨機變量變成常數值,這裏獲得:

      clip_image063

      c爲常數,不依賴於clip_image065。對此式子作進一步推導,咱們知道clip_image067,那麼也就有clip_image069,(多個等式分子分母相加不變,這個認爲每一個樣例的兩個機率比值都是c),那麼有下式:

      clip_image070

      至此,咱們推出了在固定其餘參數clip_image026[2]後,clip_image072的計算公式就是後驗機率,解決了clip_image072[1]如何選擇的問題。這一步就是E步,創建clip_image028[5]的下界。接下來的M步,就是在給定clip_image072[2]後,調整clip_image026[3],去極大化clip_image028[6]的下界(在固定clip_image072[3]後,下界還能夠調整的更大)。那麼通常的EM算法的步驟以下:

循環重複直到收斂 {

      (E步)對於每個i,計算

                  clip_image074

      (M步)計算

                  clip_image075

      那麼究竟怎麼確保EM收斂?假定clip_image077clip_image079是EM第t次和t+1次迭代後的結果。若是咱們證實了clip_image081,也就是說極大似然估計單調增長,那麼最終咱們會到達最大似然估計的最大值。下面來證實,選定clip_image077[1]後,咱們獲得E步

      clip_image083

      這一步保證了在給定clip_image077[2]時,Jensen不等式中的等式成立,也就是

      clip_image084

      而後進行M步,固定clip_image086,並將clip_image088視做變量,對上面的clip_image090求導後,獲得clip_image092,這樣通過一些推導會有如下式子成立:

      clip_image093

      解釋第(4)步,獲得clip_image092[1]時,只是最大化clip_image090[1],也就是clip_image095的下界,而沒有使等式成立,等式成立只有是在固定clip_image026[4],並按E步獲得clip_image097時才能成立。

      何況根據咱們前面獲得的下式,對於全部的clip_image097[1]clip_image026[5]都成立

      clip_image098

      第(5)步利用了M步的定義,M步就是將clip_image088[1]調整到clip_image100,使得下界最大化。所以(5)成立,(6)是以前的等式結果。

      這樣就證實了clip_image102會單調增長。一種收斂方法是clip_image102[1]再也不變化,還有一種就是變化幅度很小。

      再次解釋一下(4)、(5)、(6)。首先(4)對全部的參數都知足,而其等式成立條件只是在固定clip_image026[6],並調整好Q時成立,而第(4)步只是固定Q,調整clip_image026[7],不能保證等式必定成立。(4)到(5)就是M步的定義,(5)到(6)是前面E步所保證等式成立條件。也就是說E步會將下界拉到與clip_image102[2]一個特定值(這裏clip_image088[2])同樣的高度,而此時發現下界仍然能夠上升,所以通過M步後,下界又被拉昇,但達不到與clip_image102[3]另一個特定值同樣的高度,以後E步又將下界拉到與這個特定值同樣的高度,重複下去,直到最大值。

      若是咱們定義

      clip_image103

      從前面的推導中咱們知道clip_image105,EM能夠看做是J的座標上升法,E步固定clip_image026[8],優化clip_image107,M步固定clip_image107[1]優化clip_image026[9]

3. 從新審視混合高斯模型

      咱們已經知道了EM的精髓和推導過程,再次審視一下混合高斯模型。以前提到的混合高斯模型的參數clip_image109clip_image111計算公式都是根據不少假定得出的,有些沒有說明來由。爲了簡單,這裏在M步只給出clip_image113clip_image115的推導方法。

E步很簡單,按照通常EM公式獲得:

      clip_image116

      簡單解釋就是每一個樣例i的隱含類別clip_image055[2]爲j的機率能夠經過後驗機率計算獲得。

      在M步中,咱們須要在固定clip_image072[4]後最大化最大似然估計,也就是

      clip_image118

      這是將clip_image120的k種狀況展開後的樣子,未知參數clip_image122clip_image124

      固定clip_image126clip_image128,對clip_image130求導得

      clip_image131

      等於0時,獲得

      clip_image132

      這就是咱們以前模型中的clip_image115[1]的更新公式。

      而後推導clip_image126[1]的更新公式。看以前獲得的

      clip_image133

      在clip_image113[1]clip_image115[2]肯定後,分子上面的一串都是常數了,實際上須要優化的公式是:

      clip_image134

      須要知道的是,clip_image126[2]還須要知足必定的約束條件就是clip_image136

      這個優化問題咱們很熟悉了,直接構造拉格朗日乘子。

      clip_image137

      還有一點就是clip_image139,但這一點會在獲得的公式裏自動知足。

      求導得,

      clip_image141

      等於0,獲得

      clip_image142

      也就是說clip_image143再次使用clip_image136[1],獲得

      clip_image144

      這樣就神奇地獲得了clip_image146

      那麼就順勢獲得M步中clip_image126[3]的更新公式:

      clip_image147

      clip_image111[1]的推導也相似,不過稍微複雜一些,畢竟是矩陣。結果在以前的混合高斯模型中已經給出。

4. 總結

      若是將樣本看做觀察值,潛在類別看做是隱藏變量,那麼聚類問題也就是參數估計問題,只不過聚類問題中參數分爲隱含類別變量和其餘參數,這猶如在x-y座標系中找一個曲線的極值,然而曲線函數不能直接求導,所以什麼梯度降低方法就不適用了。但固定一個變量後,另一個能夠經過求導獲得,所以可使用座標上升法,一次固定一個變量,對另外的求極值,最後逐步逼近極值。對應到EM上,E步估計隱含變量,M步估計其餘參數,交替將極值推向最大。EM中還有「硬」指定和「軟」指定的概念,「軟」指定看似更爲合理,但計算量要大,「硬」指定在某些場合如K-means中更爲實用(要是保持一個樣本點到其餘全部中心的機率,就會很麻煩)。

      另外,EM的收斂性證實方法確實很牛,可以利用log的凹函數性質,還可以想到利用創造下界,拉平函數下界,優化下界的方法來逐步逼近極大值。並且每一步迭代都能保證是單調的。最重要的是證實的數學公式很是精妙,硬是分子分母都乘以z的機率變成指望來套上Jensen不等式,前人都是怎麼想到的。

      在Mitchell的Machine Learning書中也舉了一個EM應用的例子,明白地說就是將班上學生的身高都放在一塊兒,要求聚成兩個類。這些身高能夠看做是男生身高的高斯分佈和女生身高的高斯分佈組成。所以變成了如何估計每一個樣例是男生仍是女生,而後在肯定男女生狀況下,如何估計均值和方差,裏面也給出了公式,有興趣能夠參考。

相關文章
相關標籤/搜索