高斯分佈-筆記(1)

時間 2019-11-06

標籤高斯分佈筆記简体版

原文原文鏈接

1 -單變量高斯分佈

單變量高斯分佈機率密度函數定義爲：
\[p(x)=\frac{1}{\sqrt{2\pi\sigma}}exp\{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2\} \tag{1.1}\]
式中$\mu$爲隨機變量$x$的指望，$\sigma^2$爲$x$的方差，$\sigma$稱爲標準差：
\[\mu=E(x)=\int_{-\infty}^\infty xp(x)dx \tag{1.2}\]
\[\sigma^2=\int_{-\infty}^\infty(x-\mu)^2p(x)dx \tag{1.3}\]
能夠看出，該機率分佈函數，由指望和方差就能徹底肯定。高斯分佈的樣本主要都集中在均值附近，且分散程度能夠經過標準差來表示，其越大，分散程度也越大，且約有95%的樣本落在區間$(\mu-2\sigma,\mu+2\sigma)$app

2 - 多元高斯分佈

多元高斯分佈的機率密度函數。多元高斯分佈的機率密度函數定義：
\[p({\bf x})=\frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma|^\frac{1}{2}}exp\{-\frac{1}{2}({\bf x-\mu})^T{\Sigma}^{-1}({\bf x-\mu})\} \tag{2.1}\]
其中${\bf x}=[x_1,x_2,...,x_d]^T$是$d$維的列向量；
${\bf \mu}=[\mu_1,\mu_2,...,\mu_d]^T$是$d$維均值的列向量；
$\Sigma$是$d\times d$維的協方差矩陣；
${\Sigma}^{-1}$是$\Sigma$的逆矩陣;
$|\Sigma|$是$\Sigma$的行列式；
$(\bf x-\mu)^T$是$(\bf x-\mu)$的轉置，且
\[\mu=E(\bf x) \tag{2.2}\]
\[\Sigma=E\{(\bf x-\bf \mu)(\bf x - \mu)^T\}\tag{2.3}\]
其中$\mu,\Sigma$分別是向量$\bf x$和矩陣$(\bf x -\mu)(\bf x -\mu)^T$的指望，諾$x_i$是$\bf x$的第$i$個份量，$\mu_i$是$\mu$的第$i$個份量，$\sigma_{ij}^2$是$\sum$的第$i,j$個元素。則:
\[\mu_i=E(x_i)=\int_{-\infty}^\infty x_ip(x_i)dx_i \tag{2.4}\]
其中$p(x_i)$爲邊緣分佈：
\[p(x_i)=\int_{-\infty}^\infty\cdot\cdot\cdot\int_{-\infty}^\infty p({\bf x})dx_1dx_2 \cdot\cdot\cdot dx_d \tag{2.5}\]
而
\[\begin{eqnarray}\sigma_{ij}^2 &=&E[(x_i-\mu_i)(x_j-\mu_j)]\\ &=&\int_{-\infty}^\infty\int_{-\infty}^\infty(x_i-\mu_i)(x_j-\mu_j)p(x_i,x_j)dx_idx_j \end{eqnarray} \tag{2.6}\]
不難證實，協方差矩陣老是對稱非負定矩陣，且可表示爲：
\[\Sigma= \begin{bmatrix} \sigma_{11}^2 & \sigma_{12}^2 \cdot\cdot\cdot \sigma_{1d}^2 \\ \sigma_{12}^2 & \sigma_{22}^2 \cdot\cdot\cdot \sigma_{2d}^2\\ \cdot\cdot\cdot &\cdot\cdot\cdot\\ \sigma_{1d}^2 & \sigma_{2d}^2 \cdot\cdot\cdot \sigma_{dd}^2 \end{bmatrix}\]
對角線上的元素$\sigma_{ii}^2$爲$x_i$的方差，非對角線上的元素$\sigma_{ij}^2$爲$x_i$和$x_j$的協方差。
由上面能夠看出，均值向量$\mu$有$d$個參數，協方差矩陣$\sum$由於對稱，因此有$d(d+1)/2$個參數，因此多元高斯分佈一共由$d+d(d+1)/2$個參數決定。
從多元高斯分佈中抽取的樣本大部分落在由$\mu$和$\Sigma$所肯定的一個區域裏，該區域的中心由向量$\mu$決定，區域大小由協方差矩陣$\Sigma$決定。且從式子（2.1）能夠看出，當指數項爲常數時，密度$p(\bf x)$值不變，所以等密度點是使指數項爲常數的點，即知足:
\[({\bf x}-\mu)^T{\Sigma}^{-1}({\bf x-\mu})=常數 \tag{2.7}\]
上式的解是一個超橢圓面，且其主軸方向由$\sum$的特徵向量所決定，主軸的長度與相應的協方差矩陣$\Sigma$的特徵值成正比。
在數理統計中，式子（2.7）所表示的數量：
\[\gamma^2=({\bf x}-\mu)^T{\Sigma}^{-1}({\bf x}-\mu)\]
稱爲$\bf x$到$\mu$的Mahalanobis距離的平方。因此等密度點軌跡是$\bf x$到$\mu$的Mahalanobis距離爲常數的超橢球面。這個超橢球體大小是樣本對於均值向量的離散度度量。對應的M式距離爲$\gamma$的超橢球體積爲：
\[V=V_d|\Sigma|^{\frac{1}{2}}\gamma^d\]
其中$V_d$是d維單位超球體的體積：
\[V_d=\begin{cases}\frac{\pi^{\frac{d}{2}}}{(\frac{d}{2})!},&d 爲偶數\\ \frac{2^d\pi^{(\frac{d-1}{2})}(\frac{d-1}{2})!}{d!},d爲奇數 \end{cases}\]函數

若是多元高斯隨機向量$\bf x$的協方差矩陣是對角矩陣，則$\bf x$的份量是相互獨立的高斯分佈隨機變量。測試

2.1 - 多變量高斯分佈中馬氏距離的2維表示

上面式2.7是樣本點$\bf x$與均值向量$\bf \mu$之間的馬氏距離。咱們首先對$\Sigma$進行特徵分解，即$\Sigma=\bf U\Lambda U^T$,這裏$\bf U$是一個正交矩陣，且$\bf U^TU=I$，$\bf\Lambda$是特徵值的對角矩陣。且：
\[{\bf\Sigma}^{-1}={\bf U^{-T}\Lambda^{-1}U^{-1}}={\bf U\Lambda^{-1}U^T}=\sum_{i=1}^d\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^T\]
這裏${\bf u}_i$是$\bf U$的第$i$列，包含了第$i$個特徵向量。所以能夠重寫成：
\[\begin{eqnarray}({\bf x-\mu})^T{\Sigma}^{-1}({\bf x-\mu}) &=&({\bf x-\mu})^T\left(\sum_{i=1}^d\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^T\right)({\bf x-\mu})\\ &=&\sum_{i=1}^d\frac{1}{\lambda_i}({\bf x-\mu})^T{\bf u}_i{\bf u}_i^T({\bf x-\mu})\\ &=&\sum_{i=1}^d\frac{y_i^2}{\lambda_i} \end{eqnarray}\]
這裏$y_i={\bf u}_i^T(\bf x-\mu)$,能夠看出，當只選擇兩個維度時，便可獲得橢圓公式 :
\[\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=1\]
其中該橢圓的長軸與短軸的方向由特徵向量而定，軸的長短由特徵值大小而定。
ps：因此得出結論，馬氏距離就是歐式距離先經過$\bf \mu$中心化，而後基於$\bf U$旋轉獲得的。spa

2.2多變量高斯分佈的最大似然估計

假設有$N$個iid的高斯分佈的樣本即${\bf x}_i $~$ \cal N(\bf \mu,\Sigma)$，則該分佈的指望和方差（這裏是協方差）：
\[\hat\mu=\frac{1}{N}\sum_{i=1}^N{\bf x}_i=\overline{\bf x}\tag{2.2.1}\]
\[\begin{eqnarray}\hat{\Sigma} &=&\frac{1}{N}\sum_{i=1}^N({\bf x}_i-{\bf\overline x})({\bf x}_i-{\bf\overline x})^T\\ &=&\frac{1}{N}\sum_{i=1}^N\left({\bf x}_i{\bf x}_i^T-{\bf x}_i{\bf \overline x}^T-{\bf \overline x}{\bf x}_i^T+{\bf \overline x}{\bf \overline x}^T\right)\\ &=&\frac{1}{N}\sum_{i=1}^N\left({\bf x}_i{\bf x}_i^T\right)-2{\bf \overline x}{\bf \overline x}^T+{\bf \overline x}{\bf \overline x}^T\\ &=&\frac{1}{N}\sum_{i=1}^N\left({\bf x}_i{\bf x}_i^T\right)-{\bf \overline x}{\bf \overline x}^T \end{eqnarray}\tag{2.2.2}\]
爲了求得他們的最大似然估計，須要預先知道以下知識：blog

圖2.2.1 書mlapp上公式4.10
\[{\bf x^TAx}=tr({\bf x^TAx})=tr({\bf xx^TA})=tr({\bf Axx^T})\tag{2.2.3}\]
由於多元高斯分佈可寫成:
\[p(d|\mu,\Sigma)= \frac{1}{{2\pi}^{d/2}}*|\Sigma^{-1}|^{1/2}*\exp\left[-\frac{1}{2}({\bf x-\mu})^T{\Sigma}^{-1}({\bf x-\mu})\right]\tag{2.2.4}\]

\[\begin{eqnarray} \scr L({\bf \mu},\Sigma) &=&\log p(d|{\bf \mu},\Sigma)\\ &=&0+\frac{N}{2}\log|{\bf \Lambda}|-\frac{1}{2}\sum_{i=1}^N({{\bf x}_i-\mu})^T{\bf \Lambda}({{\bf x}_i-\mu}) \end{eqnarray}\tag{2.2.5}\]
這裏$\bf \Lambda=\Sigma^{-1}$是協方差矩陣的逆矩陣，也就是精度矩陣。
並假設${\bf y}_i={\bf x}_i-\mu$，採用鏈式求導法則,且按照圖2.2.1第二個公式，得：
\[\begin{eqnarray} \frac{d}{d\mu}\left(\frac{1}{2}({{\bf x}_i-\mu})^T{\Sigma}^{-1}({{\bf x}_i-\mu})\right) &=&\frac{d}{d{\bf y}_i}\left({\bf y}_i^T\Sigma^{-1}{\bf y}_i\right)\frac{d{\bf y}_i}{d\mu}\\ &=&(\Sigma^{-1}+\Sigma^{-T}){\bf y}_i(-1)\\ &=&-(\Sigma^{-1}+\Sigma^{-T}){\bf y}_i \end{eqnarray}\]
且$\Sigma$是對稱矩陣，因此：
\[\begin{eqnarray} \frac{d}{d\mu}{\scr L}(\mu,\Sigma) &=&0+\frac{d}{d\mu}\left(-\frac{1}{2}\sum_{i=1}^N({{\bf x}_i-\mu})^T{\bf \Lambda}({{\bf x}_i-\mu})\right)\\ &=&-\frac{1}{2}\sum_{i=1}^N\left(-(\Sigma^{-1}+\Sigma^{-T}){\bf y}_i\right)\\ &=&\sum_{i=1}^N\Sigma^{-1}{\bf y}_i\\ &=&\Sigma^{-1}\sum_{i=1}^N({\bf x}_i-\mu)=0 \end{eqnarray}\]
從而，多元高斯分佈的指望爲：$\hat \mu=\frac{1}{N}\sum_{i=1}^N{\bf x}_i$ip

由於
class

$\bf A_1B+A_2B=(A_1+A_2)B$
$tr({\bf A})+tr({\bf B})=tr(\bf A+B)$
因此
$tr({\bf A_1 B})+tr({\bf A_2 B})=tr[(\bf A_1+A_2)B]$
經過公式2.2.3，且假定 ${\bf S}_\mu=\sum_{i=1}^N({{\bf x}_i-\mu})({{\bf x}_i-\mu})^T$可知公式2.2.5可表示成：
\[\begin{eqnarray} \scr L({\bf \mu},\Sigma) &=&\log p(d|{\bf \mu},\Sigma)\\ &=&0+\frac{N}{2}\log|{\bf \Lambda}|-\frac{1}{2}\sum_{i=1}^Ntr[({{\bf x}_i-\mu})({{\bf x}_i-\mu})^T{\bf \Lambda}]\\ &=&\frac{N}{2}\log|{\bf \Lambda}|-\frac{1}{2}tr({\bf S_\mu}{\bf \Lambda}) \end{eqnarray}\tag{2.2.5}\]
因此：
\[\frac{d\scr L(\mu,\Sigma)}{d{\bf \Lambda}}=\frac{N}{2}{\bf \Lambda^{-T}}-\frac{1}{2}{\bf S}_\mu^T=0\]
\[{\bf \Lambda^{-T}}={\bf \Lambda^{-1}}=\Sigma=\frac{1}{N}{\bf S}_\mu\]
最後獲得了 多元高斯分佈協方差的指望值爲:
$\hat{\Sigma} =\frac{1}{N}\sum_{i=1}^N({\bf x}_i-{\bf\mu})({\bf x}_i-{\bf\mu})^T$

2.3 基於多元變量高斯分佈的分類方法

1 - 各個類別的協方差都相等$\Sigma_{c_k}=\Sigma$:
而且能夠直觀的知道：
\[p(X={\bf x}|Y=c_k,{\bf \theta}) = {\cal N}({\bf x|\mu}_{c_k},\Sigma_{c_k}）\tag{3.1}\]
ps：基於第$k$類基礎上關於變量$\bf x$的機率，就是先挑選出全部$k$類的樣本，而後再計算其多元高斯機率。且若是$\Sigma_{c_k}$是對角矩陣(即不一樣特徵之間相互獨立)，則其就等於樸素貝葉斯。基礎

且可知對於多分類問題，給定一個測試樣本其特徵向量，預測結果爲選取機率最大的那個類別：
\[\begin{eqnarray}\hat y({\bf x}) &=&arg\max_{c_k}P(Y={c_k}|X={\bf x})\\ &=&arg\max_{c_k}\frac{P(Y={c_k},X={\bf x})}{P(X={\bf x})} \end{eqnarray}\tag{3.2}\]
由於對於每一個類別計算當前測試樣本機率時，分母都是相同的，故省略，比較分子大的就行，也就是聯合機率大的那個，從而式子3.2等價於：
\[\hat y({\bf x})=arg\max_{c_k}P(X={\bf x}|Y={c_k})P(Y={c_k})\]
而所謂LDA，就是當每一個類別的協方差都相等，即$\Sigma_{c_k}=\Sigma$,因此:
$P(X={\bf x}|Y={c_k})=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp[-\frac{1}{2}({\bf x-\mu}_{c_k})^T\Sigma^{-1}({\bf x-\mu}_{c_k})]$
$P(Y={c_k})=\pi_{c_k}$
從而，可發現：
\[\begin{eqnarray}P(Y={c_k}|X={\bf x}) \quad &正比於& \pi_{c_k}\exp[-\frac{1}{2}({\bf x-\mu}_{c_k})^T\Sigma^{-1}({\bf x-\mu}_{c_k})]\\ &=&\pi_{c_k}\exp[-\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf x}+\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf \mu}_{c_k}+\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf x}-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}]\\ &=&\pi_{c_k}\exp[-\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf x}+{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf x}-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}]\\ &=&exp[{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf x}-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}+\log\pi_{c_k}]exp[-\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf x}]\\ &=&\frac{exp[{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf x}-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}+\log\pi_{c_k}]}{exp[\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf x}]} \end{eqnarray}\]
從而上式的分母又能夠省略
假定$\gamma_{c_k}=-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}+\log\pi_{c_k}$，而$\beta_{c_k}=\Sigma^{-1}{\bf \mu}_{c_k}$
從而:
\[P(Y={c_k}|X={\bf x})=\frac{exp({\beta_{c_k}^T{\bf x}+\gamma_{c_k})}}{\sum_{k=1}^{|c|}exp({\beta_{c_k}^T{\bf x}+\gamma_{c_k})}}=S(\eta)_{c_k}\]
這裏$\eta=[{\beta_{c_1}^T{\bf x}+\gamma_{c_1}},{\beta_{c_2}^T{\bf x}+\gamma_{c_2}},...,{\beta_{c_|c|}^T{\bf x}+\gamma_{c_|c|}}]$,能夠發現它就是一個softmax函數，即：
\[S(\eta)_{c_k}=\frac{exp(\eta_{c_k})}{\sum_{k=1}^{|c|}exp(\eta_{c_k})}\]
softmax之因此這樣命名就是由於它有點像max函數。
對於LDA模型，假設將樣本空間劃分紅n個互相獨立的空間，則線性分類面，就是該分類面兩邊的類別預測機率相等的時候，即：
$P(Y={c_k}|X={\bf x})=P(Y={c_k'}|X={\bf x})$
$\beta_{c_k}^T{\bf x}+\gamma_{c_k}=\beta_{c_k'}^T{\bf x}+\gamma_{c_k'}$
${\bf x}^T(\beta_{c_k'}-\beta_{c_k})=\eta_{c_k'}-\eta_{c_k}$變量

參考資料：
[] 邊肇祺。模式識別第二版
[] Machine learning A Probabilistic Perspective
[] William.Feller, 機率論及其應用(第1卷)lambda

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。