指數分佈族是指一類具備特定形式的分佈函數,具體以下:
$$P(y|\eta)=b(y)e^{\eta^TT(y)-a(\eta)}=\dfrac{b(y)e^{\eta^TT(y)}}{e^{a(\eta)}} \begin{cases} \eta:參數向量/天然參數,一般爲實數 \\\ a:對數配分函數/對數規則化 \\\ T(y):充分統計量,一般T(y)=y \\\ b:底層觀測值 \end{cases}$$
指數分佈族此形式就是給定a,b,T定義了一個以η爲參數的機率分佈集合函數
將上式變形得:
$$P(y|\eta)e^{a(\eta)}=b(y)e^{\eta^TT(y)}$$
對兩邊同時對y積分:
$$\int P(y|\eta)e^{a(\eta)}dy=\int b(y)e^{\eta^TT(y)}dy$$
左邊恰好條件機率的積分爲1,化簡爲:
$$e^{a(\eta)}=\int b(y)e^{\eta^TT(y)}dy$$
對數化:
$$a(\eta)=\ln\int b(y)e^{\eta^TT(y)}dy$$
如今一目瞭然,還就是對數規則化學習
正態分佈-整體噪音
伯努利分佈-LR(01)
β分佈
迪利克雷分佈orm
高斯分佈:$P(y|\eta)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\dfrac{x^2}{2\sigma^2}}$,將其進行以下變形:
$$P(y|\eta)=\dfrac{1}{\sqrt{2\pi}}e^{-\log\sigma}\cdot e^{-\dfrac{x^2}{2\sigma^2}}=\dfrac{1}{\sqrt{2\pi}}e^{-\dfrac{1}{2\sigma^2}x^2-\log\sigma}$$
這不就是指數分佈族的形式嘛it
$$ \begin{aligned} P(y|\eta) & = \large\phi^y(1-\phi)^{1-y} \\\ & = \large e^{\normalsize{y\log\phi+(1-y)\log(1-\phi)}} \\\ & =\large e^{\large{\log\frac{\phi}{1-\phi}y+\log(1-\phi)}}\end{aligned} $$lambda
指數分佈族知足最大熵思想,即經驗分佈經過最大熵的形式導出的分佈就是指數分佈族。
經驗分佈$\hat{P}(x)=\dfrac{count(x)}{N}$,對於任意函數,其經驗指望爲$E_{\tilde{P}}(f(x))=\Delta$。因而:
$$max\{H(P)\}=min\{\sum\limits_{k=1}^{K}p_k\log p_k\},\quad s.t.\sum\limits_{k=1}^{K}p_k=1,E_{\tilde{P}}(f(x))=\Delta$$
構造廣義拉格朗日函數:
$$L=\sum\limits_{k=1}^{K}p_k\log p_k+\lambda_0(1-\sum\limits_{k=1}^{K}p_k)+\lambda^T(\Delta-E_pf(x))$$
對P(x)求導得:
$$\frac{\partial L}{\partial P(x)}=\sum\limits_{k=1}^{K}\log P(x)+1-\lambda_0-\lambda^Tf(x)=0$$
解得:
$$P(x)=e^{\lambda^Tf(x)+\lambda_0-1}$$im
廣義線性模型包括線性模型、LR、Softmax。之因此要提到廣義線性模型,是由於其由指數分佈族導出,其導出步驟爲:統計
$$x\rightarrow迴歸模型w^Tx\rightarrow\eta=w^Tx導出鏈接函數g^{-1}(\eta)\rightarrow廣義線性模型h(x)=g^{-1}(\eta)$$經驗
$$ \begin{aligned} P(y|\eta) & = \large\phi^y(1-\phi)^{1-y} \\\ & = \large e^{\normalsize{y\log\phi+(1-y)\log(1-\phi)}} \\\ & =\large e^{\large{\log\frac{\phi}{1-\phi}y+\log(1-\phi)}}\end{aligned} $$集合
$$\Rightarrow T(y)=y,\eta={\log\frac{\phi}{1-\phi}} \\\ \Rightarrow\phi=\dfrac{1}{1+e^{-\eta}} \\\ \Rightarrow h(x)=E(T(y)|x)=E(y|x)=\phi=\dfrac{1}{1+e^{-w^Tx}}$$co