上篇文章介紹了最大熵模型以及採用拉格朗日乘子法求解對偶問題,其模型的解以下,函數
\begin{equation} P_{w}(y|x) = \frac 1 {Z_{w}(x)} \exp {\left( \sum\limits_{i=1}^n w_{i} f_{i}(x,y) \right)} \end{equation}ui
\begin{equation} Z_{w}(x,y) = \sum\limits_{y} \exp {\left( \sum\limits_{i=1}^n w_{i} f_{i}(x,y) \right)} \end{equation}it
而後代入拉格朗日函數獲得對偶函數$\Psi(w)$,io
\begin{equation} \Psi(w) = L(P_{w},w) \end{equation}im
因而對w求$\Psi(w)$的極大,解得 w 代入 (1)和(2)獲得 $P_{w}(y|x)$。nw
本篇咱們介紹最大熵模型的極大似然估計,並證實它與上述對偶函數的極大化是等價的。數據
首先計算$\Psi(w)$,先給出拉格朗日函數math
\begin{aligned} L(P,w) & \equiv -H(P)+w_{0}(1- \sum_{y}P(y|x))+ \sum_{i=1}^n w_{i}(E_{\tilde P}(f_i)-E_{P}(f_i)) \\ & = {\sum_{x,y} \tilde{P} (x)P(y|x)logP(y|x)+w_{0}(1- \sum_{y}P(y|x)) + \sum\limits_{i=1}^n w_{i}(\sum_{x,y} \tilde{P}(x,y)f_{i}(x,y)-\sum_{x,y} \tilde{P}(x)P(y|x)f_{i}(x,y))} \end{aligned}參數
因而模型
$$ \Psi(w) = \sum\limits_{x,y} \tilde{P}(x)P_{w}(y|x)logP_{w}(y|x) + w_{0}(1-\sum_{y}P(y|x)) + \sum\limits_{i=1}^n w_{i}(\sum\limits_{x,y} \tilde{P}(x,y)f_{i}(x,y)-\sum\limits_{x,y} \tilde{P}(x)P_{w}(y|x)f_{i}(x,y)) $$
注意到有以下等式(具體參考上一篇文章)
$$\sum\limits_{y}P(y|x)=\frac{\sum\limits_{y}\exp{\left(\sum\limits_{i=1}^n w_{i} f_{i}(x,y) \right)}} {\exp(1-w_0)}=1$$
化簡$\Psi(w)$的表達式,
\begin{equation} \begin{aligned} \Psi(w) & = \sum\limits_{x,y} \tilde{P}(x)P_{w}(y|x)logP_{w}(y|x) + \sum\limits_{i=1}^n w_{i}(\sum\limits_{x,y} \tilde{P}(x,y)f_{i}(x,y)-\sum\limits_{x,y} \tilde{P}(x)P_{w}(y|x)f_{i}(x,y)) \\ & = \sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_{i}f_{i}(x,y) +\sum_{x,y}\tilde{P}(x)P_{w}(y|x)\left(logP_{w}(y|x) - \sum_{i=1}^nw_{i}f_{i}(x,y)\right) \\ & = \sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_{i}f_{i}(x,y)-\sum_{x,y}\tilde{P}(x)P_{w}(y|x)logZ_{w}(x) \\ & = \sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_{i}f_{i}(x,y)-\sum_{x}\tilde{P}(x) \log Z_{w}(x) \end{aligned} \end{equation}
其中$Z_{w}(x)$由(2)給出,這就是對偶函數的最終形式。
再看條件機率分佈P(Y|X)的對數似然函數,給定訓練數據集T,條件機率分佈P(Y|X)的對數似然函數爲
\begin{equation} L(P) = \log\prod_{x,y}P(y|x)^{\tilde{P}(x,y)} = \sum_{x,y}\tilde{P}(x,y) \log P(y|x) \end{equation}
上式以指數形式引入$\tilde{P}(x,y)$彷佛不那麼容易理解,這裏舉個例子類比一下,假設X1,X2,...,Xn~Bernoulli(p),機率密度函數爲
$$f(x;p)=p^{x}(1-p)^{1-x}$$
其中x=0,1,未知參數p表示x=1的機率,因而似然函數爲,
$$\cal {L}_{n}(p) = \prod_{i=1}^n f(X_i;p) = \prod_{i=1}^n p^{X_i}(1-p)^{1-X_i} = p^{S}(1-p)^{n-S}$$
觀察上式這個似然函數,發現本質是以下形式,
$$\mathcal{L}_{n}(p) = \prod_{i=1}^n p_{i}^{S_i}$$
其中$p_i$是$X_i$的機率,$S_i$是訓練集中$X_i$出現次數,這二者的構成一個指數形式的項對應於$X_i$,而後將X全部取值對應的這些項連乘。
類比這裏條件機率P(Y|X)的的似然函數,指數的底P(y|x)就是(x,y)構成的條件機率,將指數$\tilde{P}(x,y)$乘以訓練數據集大小N這個常數,就是數據(x,y)出現的次數,因而(5)式就是(X,Y)的全部取值(x,y)構成的指數項連乘。
好了,既然理解了對數似然函數的構成,下面再對其進行求解,已知$P_{w}(y|x)$的解由(1)式給出,代入(5)式爲,
\begin{equation} \begin{aligned} L(\tilde{P}) & = \sum_{x,y} \tilde{P}(x,y) \log P(y|x) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_{i}f_{i}(x,y) - \sum_{x,y} \tilde{P}(x,y) \log Z_{w}(x) \\ & = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^n w_{i}f_{i}(x,y) - \sum_{x} \tilde{P}(x) \log Z_{w}(x) \end{aligned} \end{equation}
發現與(4)式相同,也就是說,對偶函數等價於對數似然函數。