在數據建模時,常常會用到多元高斯分佈模型,下面就這個模型的公式並結合它的幾何意義,來作一個直觀上的講解。函數
1, 標準高斯函數spa
高斯函數標準型:3d
$f(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}$blog
這個函數描述了變量 x 的一種分佈特性,變量x的分佈有以下特色:變量
Ⅰ, 均值 = 0bfc
Ⅱ, 方差爲1擴展
Ⅲ, 機率密度和爲1im
2, 一元高斯函數通常形式qq
一元高斯函數通常形式:總結
$f(x) = \frac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)^2}{2σ^{2}}}$
咱們能夠令:
$z = \frac{x - μ}{σ}$
稱這個過程爲標準化, 不難理解,$z ∼ N(0, 1)$,從z -> x的過程以下:
Ⅰ, 將 x 向右移動 μ 個單位
Ⅱ, 將密度函數伸展 σ 倍
而標準化(x -> z)所作的事情就是上述步驟的逆向
惟一不太好理解的是前面 $\frac{1}{\sqrt{2π}σ}$ 中的σ, 爲何這裏多了一個 σ, 不是 2σ 或其餘?
固然,這裏能夠拿着機率密度函數的性質,使用微積分進行積分,爲了保證最終的積分等於1, 這裏必須是 σ
這裏我想說一下本身的直觀感覺:
實線表明的函數是標準高斯函數:
$f(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2×2^{2}}}$
虛線表明的是標準高斯函數在 x 軸方向2倍延展,效果以下:
A(x = 1) -> D(x = 2)
E(x = 1.5) -> F(x = 3)
G(x = 2) -> H(x = 4)
橫向拓寬了,縱向仍是保持不變,能夠想象,最後的函數積分確定不等於1
採用極限的思想,將 x 軸切分紅無窮個細小的片斷,每一個片斷能夠與函數圍城一個區域,由於個人切分足夠小,這個區域的面積能夠近似採用公式:面積 = 底 × 高 求得:
從 AQRS -> DTUV, 底乘以2倍,高維持不變,因此,要保持變化先後面積不變,函數的高度應該變爲原來的 1/2
因此高斯函數在 x 軸方向作2倍延展的同時,縱向應該壓縮爲原來的一半,才能從新造成新的高斯分佈函數
擴展到通常情形,x 軸方向作 σ 倍延拓的同時, y 軸應該壓縮 σ 倍(乘以 1/σ)
3, 獨立多元正態分佈
先假設n個變量 $x = \left[ \begin{matrix} x_{1}, x_{2},\cdots,x_{n}\end{matrix}\right]^\mathrm{T}$ 互不相關,且服從正態分佈(維度不相關多元正態分佈),各個維度的均值$E(x) = \left[ \begin{matrix} μ_{1}, μ_{2},\cdots,μ_{n}\end{matrix}\right]^\mathrm{T}$, 方差 $σ(x) = \left[ \begin{matrix} σ_{1}, σ_{2},\cdots,σ_{n}\end{matrix}\right]^\mathrm{T}$
根據聯合機率密度公式:
$f(x) = p(x_{1},x_{2}....x_{n}) = p(x_{1})p(x_{2})....p(x_{n}) = \frac{1}{(\sqrt{2π})^nσ_{1}σ_{2}\cdotsσ_{n}}e^{-\frac{(x_{1}-μ_{1})^2}{2σ_{1}^2}-\frac{(x_{2}-μ_{2})^2}{2σ_{2}^2}\cdots-\frac{(x_{n}-μ_{n})^2}{2σ_{n}^2}}$
令 $z^{2} = \frac{(x_{1}-μ_{1})^2}{σ_{1}^2}+\frac{(x_{2}-μ_{2})^2}{σ_{2}^2}\cdots+\frac{(x_{n}-μ_{n})^2}{σ_{n}^2}$, $σ_{z}= σ_{1}σ_{2}\cdotsσ_{n}$
這樣多元正態分佈又能夠寫成一元那種漂亮的形式了(注意一元與多元的差異):
$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}}$
由於多元正態分佈有着很強的幾何思想,單純從代數的角度看待z很難看出z的機率分佈規律,這裏須要轉換成矩陣形式:
$z^2 = z^\mathrm{T}z = \left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right] \left[ \begin{matrix} \frac{1}{σ_{1}^2}&0&\cdots&0\\
0&\frac{1}{σ_{2}^2}&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&\frac{1}{σ_{n}^2}
\end{matrix}\right]\left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right]^\mathrm{T}$
等式比較長,讓咱們要作一下變量替換:
$x - μ_{x} = \left[ \begin{matrix} x_{1} - μ_{1}, x_{2} - μ_{2}, \cdots,x_{n} - μ_{n}\end{matrix}\right]^\mathrm{T}$
定義一個符號
$∑_{}^{} = \left[ \begin{matrix} σ_{1}^2&0&\cdots&0\\
0&σ_{2}^2&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&σ_{n}^2
\end{matrix}\right]$
$∑_{}^{}$表明變量 X 的協方差矩陣, i行j列的元素值表示$x_{i}$與$x_{j}$的協方差
由於如今變量之間是相互獨立的,因此只有對角線上 (i = j)存在元素,其餘地方都等於0,且$x_{i}$與它自己的協方差就等於方差
$∑_{}^{}$是一個對角陣,根據對角矩陣的性質,它的逆矩陣:
$( (∑_{}^{})^{-1} = \left[ \begin{matrix} \frac{1}{σ_{1}^2}&0&\cdots&0\\
0&\frac{1}{σ_{2}^2}&\cdots&0\\
\vdots&\cdots&\cdots&\vdots\\
0&0&\cdots&\frac{1}{σ_{n}^2}
\end{matrix}\right]$
對角矩陣的行列式 = 對角元素的乘積
$σ_{z}= \left|∑_{}^{}\right|^\frac{1}{2} =σ_{1}σ_{2}.....σ_{n}$
替換變量以後,等式能夠簡化爲:
$z^\mathrm{T}z = (x - μ_{x})^\mathrm{T} \sum_{}{}^{-1} (x - μ_{x})$
代入以z爲自變量的標準高斯分佈函數中:
$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} = \frac{1}{(\sqrt{2π})^{n}\left|∑_{}^{}\right|^\frac{1}{2}}e^{-\frac{ (x\ -\ μ_{x})^\mathrm{T}\ (\sum_{}{})^{-1}\ (x\ -\ μ_{x})}{2}}$
注意前面的係數變化:從非標準正態分佈->標準正態分佈須要將機率密度函數的高度壓縮 $|∑_{}^{}|^\frac{1}{2}$倍, 從一維 -> n維的過程當中,每增長一維,高度將壓縮 $\sqrt{2π}$倍
維度不相關正太分佈函數圖像相似這樣(以二元分佈函數爲例):
4, 相關多元正態分佈
前面也說了,咱們討論多元正態分佈的前提是多元變量之間是相互獨立的,實際上,有不少應用場合,變量與變量之間是有關聯的。以二元正態分佈爲例:
向輸入平面做投影后的平面圖:
以如今的座標系來看,X1,X2是相關的,可是若是咱們換一個角度,它們就是互不相關的了:
上述過程被稱爲去相關性,更專業一點叫作歸化
假設新座標系 $x_{1}' = \left[\begin{matrix}u_{x1}^{0}, u_{x1}^{1}\end{matrix}\right]^T$, $x_{2}' = \left[\begin{matrix}u_{x2}^{0}, u_{x2}^{1}\end{matrix}\right]^T$那麼原座標系上的任意一點 $[x_{1}, x_{2}]^T$ 投影到新座標系上的結果爲:
$\left[\begin{matrix}x_{1}'\\
x_{2}'\end{matrix}\right] = \left[ \begin{matrix} u_{x1}^{0}, u_{x1}^{1}\\
u_{x2}^{0}, u_{x2}^{1} \end{matrix} \right]\left[ \begin{matrix} x_{1}\\
x_{2} \end{matrix} \right]$
爲了簡單起見,定義矩陣:
$U = \left[ \begin{matrix} u_{x1}^{0}, u_{x2}^{0}\\
u_{x1}^{1}, u_{x2}^{1} \end{matrix} \right]$
U的列空間由新座標向量組成,座標映射以後:
$X’ = U^{T}X$
如今咱們的自變量X’是相互獨立的了,知足維度不相關高斯分佈模型,如今咱們想套用公式:
$f(z) = \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} = \frac{1}{(\sqrt{2π})^{n}\left|∑_{}^{}\right|^\frac{1}{2}}e^{-\frac{ (x\ -\ μ_{x})^\mathrm{T}\ (\sum_{}{})^{-1}\ (x\ -\ μ_{x})}{2}}$
$x->x'$, 這個很容易,$μ_{x} -> μ(x')$這個也不難, 可是這裏還有一個 $∑_{}^{}$是未知的! 按照定義,這裏的$∑_{}^{}$應該是X’的協方差,咱們已知X,已知映射矩陣,如何求解X’的協方差?
從定義出發:
$μ_{x'} = E[U^TX] = U^TE[x] = U^Tμ_{x}$ $\tag{$1$}$
映射以後的協方差:
$\begin{align*}
σ(X') &= E[(X' - μ_{X'})(X' - μ_{X'})^T]\\
&=E[ (X' - μ_{X'}) (X'^T - μ_{X'}^T) ]\\
&=E[X'X'^T - μ_{X'}X'^T - X'μ_{X'}^T + μ_{X'}μ_{X'}^T]\\
&=E[U^TXX^TU-E[U^TX]X^TU - U^TXE[U^TX]^T + E[U^TX]E[U^TX]^T]\\
&=U^TE[XX^T - E(X)X^T - XE[X]^T + E[X]E[X]^T]U\\
&=U^Tσ(X)U\\
\end{align*}$
座標映射先後的協方差矩陣知足關係:
$(\sum_{}^{})_{x'} = U^{T}(\sum_{}^{})_{x}U$ $\tag{$2$}$
再進一步觀察,U的列向量是單位向量,並且是相互正交的,U是正交矩陣,$U^T = U^{-1}$
$(\sum_{}^{})_{x'} = U^{-1}(\sum_{}^{})_{x}U$
也就是說$(\sum_{}^{})_{x'}$ 是 $(\sum_{}^{})_{x}$的類似矩陣,類似矩陣的行列式相等
$|(\sum_{}^{})_{x'}| = |(\sum_{}^{})_{x}|$ $\tag{$3$}$
而且還有一個重要結論:
$(\sum_{}^{})_{x'}^{-1} = (U^T(\sum_{}^{})_{x}U)^{-1} = (U^{-1}(\sum_{}^{})_{x}U)^{-1}=U^{-1}(\sum_{}^{})_{x}^{-1}U = U^{T}(\sum_{}^{})_{x}^{-1}U$ $\tag{$4$}$
有了上述一、二、三、4四個結論,咱們就能夠放心套用標準化公式了:
$\begin{align*}
f(z) &= \frac{1}{(\sqrt{2π})^nσ_{z}}e^{-\frac{z^2}{2}} \\
&= \frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})'_{x}\right|^\frac{1}{2}}e^{-\frac{ (x'\ -\ μ_{x'})^\mathrm{T}\ (\sum_{}{})_{x'}^{-1}\ (x'\ -\ μ_{x'})}{2}}\\
&=\frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})_{x}\right|^\frac{1}{2}}e^{-\frac{ (U^Tx\ -\ U^Tμ_{x})^\mathrm{T}\ U^T (\sum_{}{})_{x}^{-1}\ U (U^Tx\ -\ U^Tμ_{x})}{2}}\\
&=\frac{1}{(\sqrt{2π})^{n}\left|(∑_{}^{})_{x}\right|^\frac{1}{2}}e^{-\frac{ (x\ -\ μ_{x})^\mathrm{T}\ (\sum_{}{})_{x}^{-1}\ (x\ -\ μ_{x})}{2}}
\end{align*}$
總結一下咱們作了什麼。
Ⅰ, 咱們先定義了新的座標系,經過矩陣 $U^{T}$ 將元素映射到新的座標系,目的是去相關性
Ⅱ, 在新的座標下,咱們定義了新的指望、協方差、協方差的逆,他們均可以經過 $U$ 與 $U^T$計算出來,固然咱們不用計算
Ⅲ, 套用標準公式,將新的指望、協方差的逆、協方差的行列式代入,發現最後的結果與$U$、$U^T$無關
爲何會這樣?個人理解是這樣:
前提條件:機率模型已經構建
假設空白平面上有一點A, 這個點A是客觀存在的,一旦A指定了,那麼它的機率大小P(A)就已經肯定了
如今咱們添加了一個座標系,添加座標系的好處只是使得P(A)能夠被量化 $P(A) = f(u1, u2)$
同理,使用其餘座標系,能夠獲得其餘座標系下的另一種量化 $P(A) = f(v1, v2)$
無論使用哪一個座標系,A點的機率始終是不變的,因此$f(u1, u2) = f(v1, v2)$(感受這有點像哲學問題哈)。
5, 實例分析
$\sum_{}^{} = \left[ \begin{matrix} 1&0.8\\
0.8&1
\end{matrix} \right]$
這個圖形與參數是如何對應的?
能夠把那條假象的座標軸線畫出來,轉換先後,座標原點不變,很明顯,這是一個旋轉變換,假設座標軸旋轉的角度爲θ,新的座標向量矩陣將變爲:
$U = \left[ \begin{matrix} cosθ&-sinθ\\
sinθ&cosθ
\end{matrix}\right]$
U的列空間組成了新座標的座標系
$U^T = \left[ \begin{matrix} cosθ&sinθ\\
-sinθ&cosθ
\end{matrix}\right]$
新座標系下變量是不相關的,協方差矩陣爲對角陣:
$(\sum_{}^{})_{new} = U^T \sum{} U = \left[ \begin{matrix} cosθ&sinθ\\
-sinθ&cosθ
\end{matrix}\right] \left[ \begin{matrix}
1&0.8\\
0.8&1
\end{matrix} \right] \left[ \begin{matrix} cosθ&-sinθ\\
sinθ&cosθ
\end{matrix}\right] = \left[ \begin{matrix} σ_{1}^2&0\\
0&σ_{2}^2
\end{matrix} \right]$
計算可得: $θ = \frac{π}{4}$
代入計算新的協方差爲:
$(\sum_{}^{})_{new} = \left[ \begin{matrix} 1.8&0\\
0&0.2 \end{matrix} \right]$
得出的結論: 新的座標系是原座標系通過 $θ = \frac{π}{4}$旋轉而來,在新的座標系下,輸入元素將會變得不相關,$x_{1}$方向的方差爲1.8,分佈比較寬, $x_{2}$方向的方差爲0.2,分佈比較窄,總體表現爲扁平。
同理,不可貴出:
$\sum_{}^{} = \left[ \begin{matrix} 1&-0.5\\
-0.5&1
\end{matrix} \right]\qquad\qquad\qquad\qquad\sum_{}^{} = \left[ \begin{matrix} 1&-0.8\\
-0.8&1
\end{matrix} \right]\qquad\qquad\qquad\qquad\sum_{}^{} = \left[ \begin{matrix} 3&0.8\\
0.8&1
\end{matrix} \right]$
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------
路漫漫其修遠兮,吾將上下而求索