算法工程獅5、指數分佈族

時間 2021-02-15

標籤函數學習 orm lambda 統計經驗集合欄目 Java 简体版

原文原文鏈接

1.定義

指數分佈族是指一類具備特定形式的分佈函數，具體以下：
$$P(y|\eta)=b(y)e^{\eta^TT(y)-a(\eta)}=\dfrac{b(y)e^{\eta^TT(y)}}{e^{a(\eta)}} \begin{cases} \eta:參數向量/天然參數，一般爲實數 \\\ a:對數配分函數/對數規則化 \\\ T(y):充分統計量，一般T(y)=y \\\ b:底層觀測值 \end{cases}$$
指數分佈族此形式就是給定a,b,T定義了一個以η爲參數的機率分佈集合函數

2.對數規則化

將上式變形得:
$$P(y|\eta)e^{a(\eta)}=b(y)e^{\eta^TT(y)}$$
對兩邊同時對y積分:
$$\int P(y|\eta)e^{a(\eta)}dy=\int b(y)e^{\eta^TT(y)}dy$$
左邊恰好條件機率的積分爲1，化簡爲:
$$e^{a(\eta)}=\int b(y)e^{\eta^TT(y)}dy$$
對數化:
$$a(\eta)=\ln\int b(y)e^{\eta^TT(y)}dy$$
如今一目瞭然，還就是對數規則化學習

3.常見指數分佈族

正態分佈-整體噪音
伯努利分佈-LR(01)
β分佈
迪利克雷分佈orm

4.指數分佈族推導舉例

高斯分佈

高斯分佈:$P(y|\eta)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\dfrac{x^2}{2\sigma^2}}$，將其進行以下變形：
$$P(y|\eta)=\dfrac{1}{\sqrt{2\pi}}e^{-\log\sigma}\cdot e^{-\dfrac{x^2}{2\sigma^2}}=\dfrac{1}{\sqrt{2\pi}}e^{-\dfrac{1}{2\sigma^2}x^2-\log\sigma}$$
這不就是指數分佈族的形式嘛it

二項分佈

$$ \begin{aligned} P(y|\eta) & = \large\phi^y(1-\phi)^{1-y} \\\ & = \large e^{\normalsize{y\log\phi+(1-y)\log(1-\phi)}} \\\ & =\large e^{\large{\log\frac{\phi}{1-\phi}y+\log(1-\phi)}}\end{aligned} $$lambda

5.最大熵思想

指數分佈族知足最大熵思想，即經驗分佈經過最大熵的形式導出的分佈就是指數分佈族。
經驗分佈$\hat{P}(x)=\dfrac{count(x)}{N}$，對於任意函數，其經驗指望爲$E_{\tilde{P}}(f(x))=\Delta$。因而:
$$max\{H(P)\}=min\{\sum\limits_{k=1}^{K}p_k\log p_k\},\quad s.t.\sum\limits_{k=1}^{K}p_k=1,E_{\tilde{P}}(f(x))=\Delta$$
構造廣義拉格朗日函數:
$$L=\sum\limits_{k=1}^{K}p_k\log p_k+\lambda_0(1-\sum\limits_{k=1}^{K}p_k)+\lambda^T(\Delta-E_pf(x))$$
對P(x)求導得:
$$\frac{\partial L}{\partial P(x)}=\sum\limits_{k=1}^{K}\log P(x)+1-\lambda_0-\lambda^Tf(x)=0$$
解得:
$$P(x)=e^{\lambda^Tf(x)+\lambda_0-1}$$im

6.廣義線性模型(GLM)

廣義線性模型包括線性模型、LR、Softmax。之因此要提到廣義線性模型，是由於其由指數分佈族導出，其導出步驟爲：統計

假設y符合以x,θ爲參數η做爲天然參數的指數分佈族
學習:$h(x)=E(T(y)|x)$
$\eta=\theta^Tx，天然參數與x線性相關$

例由伯努利分佈導LR

$$x\rightarrow迴歸模型w^Tx\rightarrow\eta=w^Tx導出鏈接函數g^{-1}(\eta)\rightarrow廣義線性模型h(x)=g^{-1}(\eta)$$經驗

$$\Rightarrow T(y)=y,\eta={\log\frac{\phi}{1-\phi}} \\\ \Rightarrow\phi=\dfrac{1}{1+e^{-\eta}} \\\ \Rightarrow h(x)=E(T(y)|x)=E(y|x)=\phi=\dfrac{1}{1+e^{-w^Tx}}$$co