EM是我一直想深刻學習的算法之一,第一次據說是在NLP課中的HMM那一節,爲了解決HMM的參數估計問題,使用了EM算法。在以後的MT中的詞對齊中也用到了。在Mitchell的書中也提到EM能夠用於貝葉斯網絡中。算法
下面主要介紹EM的整個推導過程。網絡
回顧優化理論中的一些概念。設f是定義域爲實數的函數,若是對於全部的實數x,,那麼f是凸函數。當x是向量時,若是其hessian矩陣H是半正定的(),那麼f是凸函數。若是或者,那麼稱f是嚴格凸函數。函數
Jensen不等式表述以下:學習
若是f是凸函數,X是隨機變量,那麼優化
特別地,若是f是嚴格凸函數,那麼當且僅當,也就是說X是常量。spa
若是用圖表示會很清晰:ip
圖中,實線f是凸函數,X是隨機變量,有0.5的機率是a,有0.5的機率是b。(就像擲硬幣同樣)。X的指望值就是a和b的中值了,圖中能夠看到成立。ci
當f是(嚴格)凹函數當且僅當-f是(嚴格)凸函數。get
給定的訓練樣本是,樣例間獨立,咱們想找到每一個樣例隱含的類別z,能使得p(x,z)最大。p(x,z)的最大似然估計以下:
第一步是對極大似然取對數,第二步是對每一個樣例的每一個可能類別z求聯合分佈機率和。可是直接求通常比較困難,由於有隱藏變量z存在,可是通常肯定了z後,求解就容易了。
EM是一種解決存在隱含變量優化問題的有效方法。居然不能直接最大化,咱們能夠不斷地創建的下界(E步),而後優化下界(M步)。這句話比較抽象,看下面的。
對於每個樣例i,讓表示該樣例隱含變量z的某種分佈,知足的條件是。(若是z是連續性的,那麼是機率密度函數,須要將求和符號換作積分符號)。好比要將班上學生聚類,假設隱藏變量z是身高,那麼就是連續的高斯分佈。若是按照隱藏變量是男女,那麼就是伯努利分佈了。
能夠由前面闡述的內容獲得下面的公式:
(1)到(2)比較直接,就是分子分母同乘以一個相等的函數。(2)到(3)利用了Jensen不等式,考慮到是凹函數(二階導數小於0),並且
就是的指望(回想指望公式中的Lazy Statistician規則)
(1) X是離散型隨機變量,它的分佈律爲,k=1,2,…。若絕對收斂,則有 |
對應於上述問題,Y是,X是,是,g是到的映射。這樣解釋了式子(2)中的指望,再根據凹函數時的Jensen不等式:
能夠獲得(3)。
這個過程能夠看做是對求了下界。對於的選擇,有多種可能,那種更好的?假設已經給定,那麼的值就決定於和了。咱們能夠經過調整這兩個機率使下界不斷上升,以逼近的真實值,那麼何時算是調整好了呢?當不等式變成等式時,說明咱們調整後的機率可以等價於了。按照這個思路,咱們要找到等式成立的條件。根據Jensen不等式,要想讓等式成立,須要讓隨機變量變成常數值,這裏獲得:
c爲常數,不依賴於。對此式子作進一步推導,咱們知道,那麼也就有,(多個等式分子分母相加不變,這個認爲每一個樣例的兩個機率比值都是c),那麼有下式:
至此,咱們推出了在固定其餘參數後,的計算公式就是後驗機率,解決了如何選擇的問題。這一步就是E步,創建的下界。接下來的M步,就是在給定後,調整,去極大化的下界(在固定後,下界還能夠調整的更大)。那麼通常的EM算法的步驟以下:
循環重複直到收斂 { (E步)對於每個i,計算 (M步)計算 |
那麼究竟怎麼確保EM收斂?假定和是EM第t次和t+1次迭代後的結果。若是咱們證實了,也就是說極大似然估計單調增長,那麼最終咱們會到達最大似然估計的最大值。下面來證實,選定後,咱們獲得E步
這一步保證了在給定時,Jensen不等式中的等式成立,也就是
而後進行M步,固定,並將視做變量,對上面的求導後,獲得,這樣通過一些推導會有如下式子成立:
解釋第(4)步,獲得時,只是最大化,也就是的下界,而沒有使等式成立,等式成立只有是在固定,並按E步獲得時才能成立。
第(5)步利用了M步的定義,M步就是將調整到,使得下界最大化。所以(5)成立,(6)是以前的等式結果。
這樣就證實了會單調增長。一種收斂方法是再也不變化,還有一種就是變化幅度很小。
再次解釋一下(4)、(5)、(6)。首先(4)對全部的參數都知足,而其等式成立條件只是在固定,並調整好Q時成立,而第(4)步只是固定Q,調整,不能保證等式必定成立。(4)到(5)就是M步的定義,(5)到(6)是前面E步所保證等式成立條件。也就是說E步會將下界拉到與一個特定值(這裏)同樣的高度,而此時發現下界仍然能夠上升,所以通過M步後,下界又被拉昇,但達不到與另一個特定值同樣的高度,以後E步又將下界拉到與這個特定值同樣的高度,重複下去,直到最大值。
若是咱們定義
從前面的推導中咱們知道,EM能夠看做是J的座標上升法,E步固定,優化,M步固定優化。
咱們已經知道了EM的精髓和推導過程,再次審視一下混合高斯模型。以前提到的混合高斯模型的參數和計算公式都是根據不少假定得出的,有些沒有說明來由。爲了簡單,這裏在M步只給出和的推導方法。
E步很簡單,按照通常EM公式獲得:
簡單解釋就是每一個樣例i的隱含類別爲j的機率能夠經過後驗機率計算獲得。
等於0時,獲得
在和肯定後,分子上面的一串都是常數了,實際上須要優化的公式是:
這個優化問題咱們很熟悉了,直接構造拉格朗日乘子。
求導得,
等於0,獲得
的推導也相似,不過稍微複雜一些,畢竟是矩陣。結果在以前的混合高斯模型中已經給出。
若是將樣本看做觀察值,潛在類別看做是隱藏變量,那麼聚類問題也就是參數估計問題,只不過聚類問題中參數分爲隱含類別變量和其餘參數,這猶如在x-y座標系中找一個曲線的極值,然而曲線函數不能直接求導,所以什麼梯度降低方法就不適用了。但固定一個變量後,另一個能夠經過求導獲得,所以可使用座標上升法,一次固定一個變量,對另外的求極值,最後逐步逼近極值。對應到EM上,E步估計隱含變量,M步估計其餘參數,交替將極值推向最大。EM中還有「硬」指定和「軟」指定的概念,「軟」指定看似更爲合理,但計算量要大,「硬」指定在某些場合如K-means中更爲實用(要是保持一個樣本點到其餘全部中心的機率,就會很麻煩)。
另外,EM的收斂性證實方法確實很牛,可以利用log的凹函數性質,還可以想到利用創造下界,拉平函數下界,優化下界的方法來逐步逼近極大值。並且每一步迭代都能保證是單調的。最重要的是證實的數學公式很是精妙,硬是分子分母都乘以z的機率變成指望來套上Jensen不等式,前人都是怎麼想到的。
在Mitchell的Machine Learning書中也舉了一個EM應用的例子,明白地說就是將班上學生的身高都放在一塊兒,要求聚成兩個類。這些身高能夠看做是男生身高的高斯分佈和女生身高的高斯分佈組成。所以變成了如何估計每一個樣例是男生仍是女生,而後在肯定男女生狀況下,如何估計均值和方差,裏面也給出了公式,有興趣能夠參考。