多元高斯分佈(The Multivariate normal distribution)

在數據建模時,常常會用到多元高斯分佈模型,下面就這個模型的公式並結合它的幾何意義,來作一個直觀上的講解。函數

1, 標準高斯函數spa

高斯函數標準型:3d

$f(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}$blog

這個函數描述了變量 x 的一種分佈特性,變量x的分佈有以下特色:變量

Ⅰ, 均值 = 0bfc

Ⅱ, 方差爲1擴展

Ⅲ, 機率密度和爲1im

2, 一元高斯函數通常形式qq

一元高斯函數通常形式:總結

$f(x) = \frac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)^2}{2σ^{2}}}$

咱們能夠令:

$z = \frac{x - μ}{σ}$

稱這個過程爲標準化, 不難理解,$z ∼ N(0, 1)$,從z -> x的過程以下:

Ⅰ, 將 x 向右移動 μ 個單位

Ⅱ, 將密度函數伸展 σ 倍

而標準化(x -> z)所作的事情就是上述步驟的逆向

惟一不太好理解的是前面 $\frac{1}{\sqrt{2π}σ}$ 中的σ, 爲何這裏多了一個 σ, 不是 2σ 或其餘?

固然,這裏能夠拿着機率密度函數的性質,使用微積分進行積分,爲了保證最終的積分等於1, 這裏必須是 σ

這裏我想說一下本身的直觀感覺:

實線表明的函數是標準高斯函數:

$f(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2×2^{2}}}$

虛線表明的是標準高斯函數在 x 軸方向2倍延展,效果以下:

A(x = 1) -> D(x = 2)

E(x = 1.5) -> F(x = 3)

G(x = 2) -> H(x = 4)

橫向拓寬了,縱向仍是保持不變,能夠想象,最後的函數積分確定不等於1

採用極限的思想,將 x 軸切分紅無窮個細小的片斷,每一個片斷能夠與函數圍城一個區域,由於個人切分足夠小,這個區域的面積能夠近似採用公式:面積 = 底 × 高 求得:

從 AQRS -> DTUV, 底乘以2倍,高維持不變,因此,要保持變化先後面積不變,函數的高度應該變爲原來的 1/2

因此高斯函數在 x 軸方向作2倍延展的同時,縱向應該壓縮爲原來的一半,才能從新造成新的高斯分佈函數

擴展到通常情形,x 軸方向作 σ 倍延拓的同時, y 軸應該壓縮 σ 倍(乘以 1/σ)

3, 獨立多元正態分佈

先假設n個變量 $x = \left[ \begin{matrix} x_{1}, x_{2},\cdots,x_{n}\end{matrix}\right]^\mathrm{T}$ 互不相關,且服從正態分佈(維度不相關多元正態分佈),各個維度的均值$E(x) = \left[ \begin{matrix} μ_{1}, μ_{2},\cdots,μ_{n}\end{matrix}\right]^\mathrm{T}$, 方差 $σ(x) = \left[ \begin{matrix} σ_{1}, σ_{2},\cdots,σ_{n}\end{matrix}\right]^\mathrm{T}$

根據聯合機率密度公式:

$f(x) = p(x_{1},x_{2}....x_{n}) = p(x_{1})p(x_{2})....p(x_{n}) = \frac{1}{(\sqrt{2π})^nσ_{1}σ_{2}\cdotsσ_{n}}e^{-\frac{(x_{1}-μ_{1})^2}{2σ_{1}^2}-\frac{(x_{2}-μ_{2})^2}{2σ_{2}^2}\cdots-\frac{(x_{n}-μ_{n})^2}{2σ_{n}^2}}$

令 $z^{2} = \frac{(x_{1}-μ_{1})^2}{σ_{1}^2}+\frac{(x_{2}-μ_{2})^2}{σ_{2}^2}\cdots+\frac{(x_{n}-μ_{n})^2}{σ_{n}^2}$, $σ_{z}= σ_{1}σ_{2}\cdotsσ_{n}$

這樣多元正態分佈又能夠寫成一元那種漂亮的形式了(注意一元與多元的差異):

$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}}$

由於多元正態分佈有着很強的幾何思想,單純從代數的角度看待z很難看出z的機率分佈規律,這裏須要轉換成矩陣形式:

$z^2 = z^\mathrm{T}z = \left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right] \left[ \begin{matrix} \frac{1}{σ_{1}^2}&0&\cdots&0\\
0&\frac{1}{σ_{2}^2}&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&\frac{1}{σ_{n}^2}
\end{matrix}\right]\left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right]^\mathrm{T}$

等式比較長,讓咱們要作一下變量替換:

$x - μ_{x} = \left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right]^\mathrm{T}$

定義一個符號

$∑_{}^{} = \left[ \begin{matrix} σ_{1}^2&0&\cdots&0\\
0&σ_{2}^2&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&σ_{n}^2
\end{matrix}\right]$

$∑_{}^{}$表明變量 X 的協方差矩陣, i行j列的元素值表示$x_{i}$與$x_{j}$的協方差

由於如今變量之間是相互獨立的,因此只有對角線上 (i = j)存在元素,其餘地方都等於0,且$x_{i}$與它自己的協方差就等於方差

$∑_{}^{}$是一個對角陣,根據對角矩陣的性質,它的逆矩陣:

$( (∑_{}^{})^{-1} = \left[ \begin{matrix} \frac{1}{σ_{1}^2}&0&\cdots&0\\
0&\frac{1}{σ_{2}^2}&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&\frac{1}{σ_{n}^2}
\end{matrix}\right]$

對角矩陣的行列式 = 對角元素的乘積

$σ_{z}= \left|∑_{}^{}\right|^\frac{1}{2} =σ_{1}σ_{2}.....σ_{n}$

替換變量以後,等式能夠簡化爲:

$z^\mathrm{T}z = (x - μ_{x})^\mathrm{T}  \sum_{}{}^{-1} (x - μ_{x})$

代入以z爲自變量的標準高斯分佈函數中:

$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} = \frac{1}{(\sqrt{2π})^{n}\left|∑_{}^{}\right|^\frac{1}{2}}e^{-\frac{ (x\  -\  μ_{x})^\mathrm{T}\  (\sum_{}{})^{-1}\  (x\  -\  μ_{x})}{2}}$ 

注意前面的係數變化:從非標準正態分佈->標準正態分佈須要將機率密度函數的高度壓縮 $|∑_{}^{}|^\frac{1}{2}$倍, 從一維 -> n維的過程當中,每增長一維,高度將壓縮 $\sqrt{2π}$倍

維度不相關正太分佈函數圖像相似這樣(以二元分佈函數爲例):

4, 相關多元正態分佈

前面也說了,咱們討論多元正態分佈的前提是多元變量之間是相互獨立的,實際上,有不少應用場合,變量與變量之間是有關聯的。以二元正態分佈爲例:

                  

向輸入平面做投影后的平面圖:

以如今的座標系來看,X1,X2是相關的,可是若是咱們換一個角度,它們就是互不相關的了:

上述過程被稱爲去相關性,更專業一點叫作歸化

假設新座標系 $x_{1}' = \left[\begin{matrix}u_{x1}^{0}, u_{x1}^{1}\end{matrix}\right]^T$, $x_{2}' = \left[\begin{matrix}u_{x2}^{0}, u_{x2}^{1}\end{matrix}\right]^T$那麼原座標系上的任意一點 $[x_{1}, x_{2}]^T$ 投影到新座標系上的結果爲:

$\left[\begin{matrix}x_{1}'\\
x_{2}'\end{matrix}\right] = \left[ \begin{matrix} u_{x1}^{0}, u_{x1}^{1}\\
u_{x2}^{0}, u_{x2}^{1} \end{matrix} \right]\left[ \begin{matrix} x_{1}\\
x_{2} \end{matrix} \right]$

爲了簡單起見,定義矩陣:

$U = \left[ \begin{matrix} u_{x1}^{0}, u_{x2}^{0}\\
u_{x1}^{1}, u_{x2}^{1} \end{matrix} \right]$

U的列空間由新座標向量組成,座標映射以後:

$X’ = U^{T}X$

如今咱們的自變量X’是相互獨立的了,知足維度不相關高斯分佈模型,如今咱們想套用公式:

$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} = \frac{1}{(\sqrt{2π})^{n}\left|∑_{}^{}\right|^\frac{1}{2}}e^{-\frac{ (x\  -\  μ_{x})^\mathrm{T}\  (\sum_{}{})^{-1}\  (x\  -\  μ_{x})}{2}}$ 

$x->x'$, 這個很容易,$μ_{x} -> μ(x')$這個也不難, 可是這裏還有一個 $∑_{}^{}$是未知的! 按照定義,這裏的$∑_{}^{}$應該是X’的協方差,咱們已知X,已知映射矩陣,如何求解X’的協方差?

從定義出發:

$μ_{x'} = E[U^TX] = U^TE[x] = U^Tμ_{x}$ $\tag{$1$}$

映射以後的協方差:

$\begin{align*}
σ(X') &= E[(X' - μ_{X'})(X' - μ_{X'})^T]\\
&=E[ (X' - μ_{X'}) (X'^T - μ_{X'}^T) ]\\
&=E[X'X'^T - μ_{X'}X'^T - X'μ_{X'}^T + μ_{X'}μ_{X'}^T]\\
&=E[U^TXX^TU-E[U^TX]X^TU - U^TXE[U^TX]^T + E[U^TX]E[U^TX]^T]\\
&=U^TE[XX^T - E(X)X^T - XE[X]^T + E[X]E[X]^T]U\\
&=U^Tσ(X)U\\
\end{align*}$

座標映射先後的協方差矩陣知足關係:

$(\sum_{}^{})_{x'} = U^{T}(\sum_{}^{})_{x}U$ $\tag{$2$}$

再進一步觀察,U的列向量是單位向量,並且是相互正交的,U是正交矩陣,$U^T = U^{-1}$

$(\sum_{}^{})_{x'} = U^{-1}(\sum_{}^{})_{x}U$ 

也就是說$(\sum_{}^{})_{x'}$ 是 $(\sum_{}^{})_{x}$的類似矩陣,類似矩陣的行列式相等

$|(\sum_{}^{})_{x'}| = |(\sum_{}^{})_{x}|$  $\tag{$3$}$

而且還有一個重要結論:

$(\sum_{}^{})_{x'}^{-1} = (U^T(\sum_{}^{})_{x}U)^{-1} =  (U^{-1}(\sum_{}^{})_{x}U)^{-1}=U^{-1}(\sum_{}^{})_{x}^{-1}U = U^{T}(\sum_{}^{})_{x}^{-1}U$ $\tag{$4$}$

有了上述一、二、三、4四個結論,咱們就能夠放心套用標準化公式了:

$\begin{align*}
f(z) &= \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} \\
&= \frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})'_{x}\right|^\frac{1}{2}}e^{-\frac{ (x'\ -\ μ_{x'})^\mathrm{T}\ (\sum_{}{})_{x'}^{-1}\ (x'\ -\ μ_{x'})}{2}}\\
&=\frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})_{x}\right|^\frac{1}{2}}e^{-\frac{ (U^Tx\ -\ U^Tμ_{x})^\mathrm{T}\ U^T (\sum_{}{})_{x}^{-1}\ U (U^Tx\ -\ U^Tμ_{x})}{2}}\\
&=\frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})_{x}\right|^\frac{1}{2}}e^{-\frac{ (x\ -\ μ_{x})^\mathrm{T}\ (\sum_{}{})_{x}^{-1}\ (x\ -\ μ_{x})}{2}}
\end{align*}$

 總結一下咱們作了什麼。

Ⅰ, 咱們先定義了新的座標系,經過矩陣 $U^{T}$ 將元素映射到新的座標系,目的是去相關性

Ⅱ, 在新的座標下,咱們定義了新的指望、協方差、協方差的逆,他們均可以經過 $U$ 與 $U^T$計算出來,固然咱們不用計算

Ⅲ,   套用標準公式,將新的指望、協方差的逆、協方差的行列式代入,發現最後的結果與$U$、$U^T$無關

爲何會這樣?個人理解是這樣:

前提條件:機率模型已經構建

假設空白平面上有一點A, 這個點A是客觀存在的,一旦A指定了,那麼它的機率大小P(A)就已經肯定了

如今咱們添加了一個座標系,添加座標系的好處只是使得P(A)能夠被量化 $P(A) = f(u1, u2)$

同理,使用其餘座標系,能夠獲得其餘座標系下的另一種量化 $P(A) = f(v1, v2)$

無論使用哪一個座標系,A點的機率始終是不變的,因此$f(u1, u2) = f(v1, v2)$(感受這有點像哲學問題哈)。

5, 實例分析

$\sum_{}^{} = \left[ \begin{matrix} 1&0.8\\
0.8&1
\end{matrix} \right]$                     

這個圖形與參數是如何對應的?

      

能夠把那條假象的座標軸線畫出來,轉換先後,座標原點不變,很明顯,這是一個旋轉變換,假設座標軸旋轉的角度爲θ,新的座標向量矩陣將變爲:

$U = \left[ \begin{matrix} cosθ&-sinθ\\
sinθ&cosθ
\end{matrix}\right]$

U的列空間組成了新座標的座標系

$U^T = \left[ \begin{matrix} cosθ&sinθ\\
-sinθ&cosθ
\end{matrix}\right]$

新座標系下變量是不相關的,協方差矩陣爲對角陣:

$(\sum_{}^{})_{new} = U^T \sum{} U = \left[ \begin{matrix} cosθ&sinθ\\
-sinθ&cosθ
\end{matrix}\right] \left[ \begin{matrix}
1&0.8\\
0.8&1
\end{matrix} \right] \left[ \begin{matrix} cosθ&-sinθ\\
sinθ&cosθ
\end{matrix}\right] = \left[ \begin{matrix} σ_{1}^2&0\\
0&σ_{2}^2
\end{matrix} \right]$

計算可得: $θ = \frac{π}{4}$ 

代入計算新的協方差爲:

$(\sum_{}^{})_{new} = \left[ \begin{matrix} 1.8&0\\
0&0.2 \end{matrix} \right]$

得出的結論: 新的座標系是原座標系通過 $θ = \frac{π}{4}$旋轉而來,在新的座標系下,輸入元素將會變得不相關,$x_{1}$方向的方差爲1.8,分佈比較寬, $x_{2}$方向的方差爲0.2,分佈比較窄,總體表現爲扁平。

同理,不可貴出:

               $\sum_{}^{} = \left[ \begin{matrix} 1&-0.5\\
-0.5&1
\end{matrix} \right]\qquad\qquad\qquad\qquad\sum_{}^{} = \left[ \begin{matrix} 1&-0.8\\
-0.8&1
\end{matrix} \right]\qquad\qquad\qquad\qquad\sum_{}^{} = \left[ \begin{matrix} 3&0.8\\
0.8&1
\end{matrix} \right]$                                                                           

 --------------------------------------------------------------------------------------------------------------------------------------------------------------------------

                                                                                                                                                                                路漫漫其修遠兮,吾將上下而求索

相關文章
相關標籤/搜索