多元高斯分佈（The Multivariate normal distribution）

時間 2019-11-07

標籤多元高斯分佈 multivariate normal distribution 简体版

原文原文鏈接

在數據建模時，常常會用到多元高斯分佈模型，下面就這個模型的公式並結合它的幾何意義，來作一個直觀上的講解。函數

1，標準高斯函數spa

高斯函數標準型：3d

$f(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}$blog

這個函數描述了變量 x 的一種分佈特性，變量x的分佈有以下特色：變量

Ⅰ，均值 = 0bfc

Ⅱ，方差爲1擴展

Ⅲ，機率密度和爲1im

2，一元高斯函數通常形式qq

一元高斯函數通常形式：總結

$f(x) = \frac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)^2}{2σ^{2}}}$

咱們能夠令：

$z = \frac{x - μ}{σ}$

稱這個過程爲標準化，不難理解，$z ∼ N(0, 1)$，從z -> x的過程以下：

Ⅰ，將 x 向右移動 μ 個單位

Ⅱ，將密度函數伸展 σ 倍

而標準化(x -> z)所作的事情就是上述步驟的逆向

惟一不太好理解的是前面 $\frac{1}{\sqrt{2π}σ}$ 中的σ，爲何這裏多了一個 σ，不是 2σ 或其餘？

固然，這裏能夠拿着機率密度函數的性質，使用微積分進行積分，爲了保證最終的積分等於1，這裏必須是 σ

這裏我想說一下本身的直觀感覺：

實線表明的函數是標準高斯函數：

$f(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2×2^{2}}}$

虛線表明的是標準高斯函數在 x 軸方向2倍延展，效果以下：

A(x = 1) -> D(x = 2)

E(x = 1.5) -> F(x = 3)

G(x = 2) -> H(x = 4)

橫向拓寬了，縱向仍是保持不變，能夠想象，最後的函數積分確定不等於1

採用極限的思想，將 x 軸切分紅無窮個細小的片斷，每一個片斷能夠與函數圍城一個區域，由於個人切分足夠小，這個區域的面積能夠近似採用公式：面積 = 底 × 高求得：

從 AQRS -> DTUV，底乘以2倍，高維持不變，因此，要保持變化先後面積不變，函數的高度應該變爲原來的 1/2

因此高斯函數在 x 軸方向作2倍延展的同時，縱向應該壓縮爲原來的一半，才能從新造成新的高斯分佈函數

擴展到通常情形，x 軸方向作 σ 倍延拓的同時， y 軸應該壓縮 σ 倍（乘以 1/σ）

3, 獨立多元正態分佈

先假設n個變量 $x = \left[ \begin{matrix} x_{1}, x_{2},\cdots,x_{n}\end{matrix}\right]^\mathrm{T}$ 互不相關，且服從正態分佈（維度不相關多元正態分佈），各個維度的均值$E(x) = \left[ \begin{matrix} μ_{1}, μ_{2},\cdots,μ_{n}\end{matrix}\right]^\mathrm{T}$，方差 $σ(x) = \left[ \begin{matrix} σ_{1}, σ_{2},\cdots,σ_{n}\end{matrix}\right]^\mathrm{T}$

根據聯合機率密度公式：

$f(x) = p(x_{1},x_{2}....x_{n}) = p(x_{1})p(x_{2})....p(x_{n}) = \frac{1}{(\sqrt{2π})^nσ_{1}σ_{2}\cdotsσ_{n}}e^{-\frac{(x_{1}-μ_{1})^2}{2σ_{1}^2}-\frac{(x_{2}-μ_{2})^2}{2σ_{2}^2}\cdots-\frac{(x_{n}-μ_{n})^2}{2σ_{n}^2}}$

令 $z^{2} = \frac{(x_{1}-μ_{1})^2}{σ_{1}^2}+\frac{(x_{2}-μ_{2})^2}{σ_{2}^2}\cdots+\frac{(x_{n}-μ_{n})^2}{σ_{n}^2}$， $σ_{z}= σ_{1}σ_{2}\cdotsσ_{n}$

這樣多元正態分佈又能夠寫成一元那種漂亮的形式了(注意一元與多元的差異)：

$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}}$

由於多元正態分佈有着很強的幾何思想，單純從代數的角度看待z很難看出z的機率分佈規律，這裏須要轉換成矩陣形式：

$z^2 = z^\mathrm{T}z = \left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right] \left[ \begin{matrix} \frac{1}{σ_{1}^2}&0&\cdots&0\\
0&\frac{1}{σ_{2}^2}&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&\frac{1}{σ_{n}^2}
\end{matrix}\right]\left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right]^\mathrm{T}$

等式比較長，讓咱們要作一下變量替換：

$x - μ_{x} = \left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right]^\mathrm{T}$

定義一個符號

$∑_{}^{} = \left[ \begin{matrix} σ_{1}^2&0&\cdots&0\\
0&σ_{2}^2&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&σ_{n}^2
\end{matrix}\right]$

$∑_{}^{}$表明變量 X 的協方差矩陣， i行j列的元素值表示$x_{i}$與$x_{j}$的協方差

由於如今變量之間是相互獨立的，因此只有對角線上 (i = j)存在元素，其餘地方都等於0，且$x_{i}$與它自己的協方差就等於方差

$∑_{}^{}$是一個對角陣，根據對角矩陣的性質，它的逆矩陣：

$( (∑_{}^{})^{-1} = \left[ \begin{matrix} \frac{1}{σ_{1}^2}&0&\cdots&0\\
0&\frac{1}{σ_{2}^2}&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&\frac{1}{σ_{n}^2}
\end{matrix}\right]$

對角矩陣的行列式 = 對角元素的乘積

$σ_{z}= \left|∑_{}^{}\right|^\frac{1}{2} =σ_{1}σ_{2}.....σ_{n}$

替換變量以後，等式能夠簡化爲：

$z^\mathrm{T}z = (x - μ_{x})^\mathrm{T} \sum_{}{}^{-1} (x - μ_{x})$

代入以z爲自變量的標準高斯分佈函數中：

$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} = \frac{1}{(\sqrt{2π})^{n}\left|∑_{}^{}\right|^\frac{1}{2}}e^{-\frac{ (x\ -\ μ_{x})^\mathrm{T}\ (\sum_{}{})^{-1}\ (x\ -\ μ_{x})}{2}}$

注意前面的係數變化：從非標準正態分佈->標準正態分佈須要將機率密度函數的高度壓縮 $|∑_{}^{}|^\frac{1}{2}$倍，從一維 -> n維的過程當中，每增長一維，高度將壓縮 $\sqrt{2π}$倍

維度不相關正太分佈函數圖像相似這樣（以二元分佈函數爲例）：

4, 相關多元正態分佈

前面也說了，咱們討論多元正態分佈的前提是多元變量之間是相互獨立的，實際上，有不少應用場合，變量與變量之間是有關聯的。以二元正態分佈爲例：

向輸入平面做投影后的平面圖：

以如今的座標系來看，X1，X2是相關的，可是若是咱們換一個角度，它們就是互不相關的了：

上述過程被稱爲去相關性，更專業一點叫作歸化

假設新座標系 $x_{1}' = \left[\begin{matrix}u_{x1}^{0}, u_{x1}^{1}\end{matrix}\right]^T$， $x_{2}' = \left[\begin{matrix}u_{x2}^{0}, u_{x2}^{1}\end{matrix}\right]^T$那麼原座標系上的任意一點 $[x_{1}, x_{2}]^T$ 投影到新座標系上的結果爲：

$\left[\begin{matrix}x_{1}'\\
x_{2}'\end{matrix}\right] = \left[ \begin{matrix} u_{x1}^{0}, u_{x1}^{1}\\
u_{x2}^{0}, u_{x2}^{1} \end{matrix} \right]\left[ \begin{matrix} x_{1}\\
x_{2} \end{matrix} \right]$

爲了簡單起見，定義矩陣：

$U = \left[ \begin{matrix} u_{x1}^{0}, u_{x2}^{0}\\
u_{x1}^{1}, u_{x2}^{1} \end{matrix} \right]$

U的列空間由新座標向量組成，座標映射以後：

$X’ = U^{T}X$

如今咱們的自變量X’是相互獨立的了，知足維度不相關高斯分佈模型，如今咱們想套用公式：

$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} = \frac{1}{(\sqrt{2π})^{n}\left|∑_{}^{}\right|^\frac{1}{2}}e^{-\frac{ (x\ -\ μ_{x})^\mathrm{T}\ (\sum_{}{})^{-1}\ (x\ -\ μ_{x})}{2}}$

$x->x'$, 這個很容易，$μ_{x} -> μ(x')$這個也不難，可是這裏還有一個 $∑_{}^{}$是未知的！按照定義，這裏的$∑_{}^{}$應該是X’的協方差，咱們已知X，已知映射矩陣，如何求解X’的協方差？

從定義出發：

$μ_{x'} = E[U^TX] = U^TE[x] = U^Tμ_{x}$ $\tag{$1$}$

映射以後的協方差：

$\begin{align*}
σ(X') &= E[(X' - μ_{X'})(X' - μ_{X'})^T]\\
&=E[ (X' - μ_{X'}) (X'^T - μ_{X'}^T) ]\\
&=E[X'X'^T - μ_{X'}X'^T - X'μ_{X'}^T + μ_{X'}μ_{X'}^T]\\
&=E[U^TXX^TU-E[U^TX]X^TU - U^TXE[U^TX]^T + E[U^TX]E[U^TX]^T]\\
&=U^TE[XX^T - E(X)X^T - XE[X]^T + E[X]E[X]^T]U\\
&=U^Tσ(X)U\\
\end{align*}$

座標映射先後的協方差矩陣知足關係：

$(\sum_{}^{})_{x'} = U^{T}(\sum_{}^{})_{x}U$ $\tag{$2$}$

再進一步觀察，U的列向量是單位向量，並且是相互正交的，U是正交矩陣，$U^T = U^{-1}$

$(\sum_{}^{})_{x'} = U^{-1}(\sum_{}^{})_{x}U$

也就是說$(\sum_{}^{})_{x'}$ 是 $(\sum_{}^{})_{x}$的類似矩陣，類似矩陣的行列式相等

$|(\sum_{}^{})_{x'}| = |(\sum_{}^{})_{x}|$ $\tag{$3$}$

而且還有一個重要結論：

$(\sum_{}^{})_{x'}^{-1} = (U^T(\sum_{}^{})_{x}U)^{-1} = (U^{-1}(\sum_{}^{})_{x}U)^{-1}=U^{-1}(\sum_{}^{})_{x}^{-1}U = U^{T}(\sum_{}^{})_{x}^{-1}U$ $\tag{$4$}$

有了上述一、二、三、4四個結論，咱們就能夠放心套用標準化公式了：

$\begin{align*}
f(z) &= \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} \\
&= \frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})'_{x}\right|^\frac{1}{2}}e^{-\frac{ (x'\ -\ μ_{x'})^\mathrm{T}\ (\sum_{}{})_{x'}^{-1}\ (x'\ -\ μ_{x'})}{2}}\\
&=\frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})_{x}\right|^\frac{1}{2}}e^{-\frac{ (U^Tx\ -\ U^Tμ_{x})^\mathrm{T}\ U^T (\sum_{}{})_{x}^{-1}\ U (U^Tx\ -\ U^Tμ_{x})}{2}}\\
&=\frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})_{x}\right|^\frac{1}{2}}e^{-\frac{ (x\ -\ μ_{x})^\mathrm{T}\ (\sum_{}{})_{x}^{-1}\ (x\ -\ μ_{x})}{2}}
\end{align*}$

總結一下咱們作了什麼。

Ⅰ，咱們先定義了新的座標系，經過矩陣 $U^{T}$ 將元素映射到新的座標系，目的是去相關性

Ⅱ，在新的座標下，咱們定義了新的指望、協方差、協方差的逆，他們均可以經過 $U$ 與 $U^T$計算出來，固然咱們不用計算

Ⅲ, 套用標準公式，將新的指望、協方差的逆、協方差的行列式代入，發現最後的結果與$U$、$U^T$無關

爲何會這樣？個人理解是這樣：

前提條件：機率模型已經構建

假設空白平面上有一點A，這個點A是客觀存在的，一旦A指定了，那麼它的機率大小P(A)就已經肯定了

如今咱們添加了一個座標系，添加座標系的好處只是使得P(A)能夠被量化 $P(A) = f(u1, u2)$

同理，使用其餘座標系，能夠獲得其餘座標系下的另一種量化 $P(A) = f(v1, v2)$

無論使用哪一個座標系，A點的機率始終是不變的，因此$f(u1, u2) = f(v1, v2)$（感受這有點像哲學問題哈）。

5, 實例分析

$\sum_{}^{} = \left[ \begin{matrix} 1&0.8\\
0.8&1
\end{matrix} \right]$

這個圖形與參數是如何對應的？

能夠把那條假象的座標軸線畫出來，轉換先後，座標原點不變，很明顯，這是一個旋轉變換，假設座標軸旋轉的角度爲θ，新的座標向量矩陣將變爲：

$U = \left[ \begin{matrix} cosθ&-sinθ\\
sinθ&cosθ
\end{matrix}\right]$

U的列空間組成了新座標的座標系

$U^T = \left[ \begin{matrix} cosθ&sinθ\\
-sinθ&cosθ
\end{matrix}\right]$

新座標系下變量是不相關的，協方差矩陣爲對角陣：

$(\sum_{}^{})_{new} = U^T \sum{} U = \left[ \begin{matrix} cosθ&sinθ\\
-sinθ&cosθ
\end{matrix}\right] \left[ \begin{matrix}
1&0.8\\
0.8&1
\end{matrix} \right] \left[ \begin{matrix} cosθ&-sinθ\\
sinθ&cosθ
\end{matrix}\right] = \left[ \begin{matrix} σ_{1}^2&0\\
0&σ_{2}^2
\end{matrix} \right]$

計算可得： $θ = \frac{π}{4}$

代入計算新的協方差爲：

$(\sum_{}^{})_{new} = \left[ \begin{matrix} 1.8&0\\
0&0.2 \end{matrix} \right]$

得出的結論：新的座標系是原座標系通過 $θ = \frac{π}{4}$旋轉而來，在新的座標系下，輸入元素將會變得不相關，$x_{1}$方向的方差爲1.8，分佈比較寬， $x_{2}$方向的方差爲0.2，分佈比較窄，總體表現爲扁平。

同理，不可貴出：

$\sum_{}^{} = \left[ \begin{matrix} 1&-0.5\\
-0.5&1
\end{matrix} \right]\qquad\qquad\qquad\qquad\sum_{}^{} = \left[ \begin{matrix} 1&-0.8\\
-0.8&1
\end{matrix} \right]\qquad\qquad\qquad\qquad\sum_{}^{} = \left[ \begin{matrix} 3&0.8\\
0.8&1
\end{matrix} \right]$

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------

路漫漫其修遠兮，吾將上下而求索

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。