【Math for ML】矩陣分解(Matrix Decompositions) (上)

I. 行列式(Determinants)和跡(Trace)

1. 行列式(Determinants)

爲避免和絕對值符號混淆,本文通常使用\(det(A)\)來表示矩陣\(A\)的行列式。另外這裏的\(A∈R^{n×n}\)默認是方陣,由於只有方陣才能計算行列式。html

行列式如何計算的就不在這裏贅述了,下面簡要給出行列式的各類性質和定理。spa

定理1:當且僅當一個方陣的行列式不爲0,則該方陣可逆。
定理2:方陣\(A\)的行列式可沿着某一行或某一列的元素展開,形式以下:3d

  • 沿着第\(i\)行展開:\[det(A)=\sum_{k=1}^n(-1)^{k+i}a_{ik}det(A_{i,k})\]
  • 沿着第\(i\)列展開:\[det(A)=\sum_{k=1}^n(-1)^{k+i}a_{ki}det(A_{k,i})\]
    定理3:當且僅當一個方陣爲滿秩時,該方陣行列式不爲0,便可逆。

2. 跡(Trace)

矩陣的跡是矩陣對角元素之和,即
\[tr(A)=\sum_{i=1}^na_{ii}\]htm

有以下性質:blog

  • \(tr(A+B)=tr(A)+tr(B)\)
  • \(tr(αA)=\alpha tr(A),\alpha∈R\)
  • \(tr(I_n)=n\)
  • \(tr(ABC)=tr(BCA)=tr(=CAB)\)
  • \(tr(AB)=tr(BA), A∈R^{n×m},B∈R^{m×n}\)

II. 特徵值(Eigenvalue)&特徵向量(Eigenvector)

1. 特徵值與特徵向量定義:

對於一個給定的矩陣 \(A∈R^{n×n}\),它的特徵向量\(v\) 通過這個線性變換以後,獲得的新向量仍然與原來的 \(v\)保持在同一條直線上,但其長度或方向也許會改變。即
\[Av=\lambda v\]
\(\lambda ∈R\)是矩陣\(A\)特徵值\(v\)是對應的特徵向量get

\(λ=λ_i\)是矩陣\(A\)的一個特徵值,則有方程\((A-λ_iv)x=0\),可求得非零解\(x=p_i\)即爲\(λ_i\)對應的特徵向量。(若\(λ_i\)爲實數,則\(p_i\)可取實向量;\(λ_i\)爲複數,則\(p_i\)可取復向量)it

  • 推論
    設n階矩陣\(A=(a_{ij})\)的特徵值爲\(λ_1,...,λ_n\),不難證實:
    • 1)\(λ_1+..+λ_n=a_{11}+...+a_{nn}\)
    • 2)\(λ_1λ_2...λ_n=|A|\)

    由2)可知\(A\)是可逆矩陣的充要條件是它的n個特徵值全不爲0.io

  • 定理class

    \(λ_1,...,λ_n\)是方陣\(A\)的n個特徵值,\(p_1,...,p_n\)依次是對應的特徵向量,若是\(λ_1,...,λ_n\)各不相等,則\(p_1,...,p_n\)線性無關。lambda

2. 特徵空間(Eigenspace)和特徵譜(Eigenspectrum) 定義

由特徵值\(\lambda\)及其對應的特徵向量\(v\)所span的空間稱爲特徵空間 ,用\(E_{\lambda}\)表示。矩陣\(A\)的特徵值集合稱爲特徵譜。

下面給出兩個定理,後面內容不少都是基於它們推導出來的。

  • (Hogben(2006)): 一個n階方陣\(A\)若是有n個不一樣的特徵值,那麼對應的n個特徵向量互相線性獨立。
  • (Meyer(2000)): 任何n階對稱矩陣都有n個獨立且正交的特徵向量

3. 圖解特徵向量和特徵值

下面使用二維圖像的變換來幫助咱們直觀理解特徵值和特徵向量的意義。一共給出了兩個示例,最左邊表示原數據,中間表示不一樣特徵值對應的特徵向量方向(紅色表示\(λ_1\)對應的特徵向量,藍色表示\(λ_2\)對應的特徵向量),最右邊表示通過矩陣變換後獲得的新的矩陣,該矩陣反應了特徵向量和特徵值是如何影響變換的。

  • 第一個例子

\[ A_1=\left[ \begin{matrix} 0.5 & 0 \\ 0 & 2 \\ \end{matrix} \right] \]

簡單計算後可求出特徵值和與之對應的特徵向量分別爲:

  • \(λ_1=0.5:p_1=[1,0]^T\)
  • \(λ_2=2\,\,\,\,\,:p_2=[0,1]^T\)
  • \(tr(A)=\sum_{i=1}^n \lambda_i\)

能夠看到最後獲得的新的矩陣\(A_1x\)沿着特徵矩陣的方向伸縮,伸縮比例恰巧等於對應特徵值大小。

image.png

\[ A_4=\left[ \begin{matrix} 1 & -1 \\ -1 & 1 \\ \end{matrix} \right] \]

簡單計算後可求出特徵值和與之對應的特徵向量分別爲:

  • \(λ_1=0:p_1=[1,1]^T\)
  • \(λ_2=2\,\,\,\,\,:p_2=[-1,1]^T\)

能夠看到最後獲得的新的矩陣\(A_1x\)沿着特徵矩陣的方向伸縮,伸縮比例恰巧等於對應特徵值大小。

image.png

關於特徵值,特徵矩陣等概念更直觀,更透徹的理解能夠參看文末【理解矩陣】系列文章,這系列文章用很是淺顯易懂的語言解釋了什麼是矩陣,行列式和向量。

III. 平方根法(Cholesky decomposition)

一種矩陣運算方法,又叫Cholesky分解。所謂平方根法,就是利用對稱正定矩陣的三角分解獲得的求解對稱正定方程組的一種有效方法。它是把一個對稱正定的矩陣表示成一個下三角矩陣L和其轉置的乘積的分解。它要求矩陣的全部特徵值必須大於零,故分解的下三角矩陣的對角元也是大於零的。公式以下:
\[ \begin{align} A&=LL^T \notag \\ \Leftrightarrow \left[ \begin{matrix} a_{11} & \cdots &a_{1n} \\ \vdots & \ddots &\vdots \\ a_{n1} & … &a_{nn} \\ \end{matrix} \right] &= \left[ \begin{matrix} l_{11} & \cdots &0 \\ \vdots & \ddots &\vdots \\ l_{n1} & … &l_{nn} \\ \end{matrix} \right] \left[ \begin{matrix} l_{11} & \cdots &l_{n1} \\ \vdots & \ddots &\vdots \\ 0 & … &l_{nn} \\ \end{matrix} \right] \notag \end{align} \]
其中\(L\)又稱爲Cholesky因子。

這裏不會詳細介紹該方法的計算方法,簡單說明一下該方法會帶來哪些好處。

1.求逆矩陣

咱們都知道求一個矩陣的逆矩陣是一個很是耗時的過程,而對於一個上(下)三角矩陣而言,求逆矩陣就簡單不少。假設咱們已經將矩陣\(A\)分解,那麼有
\[A^{-1}=(LL^T)^{-1}=(L^{-1})^T(L^{-1})\]

2.求行列式

\[det(A)=det(L)^2=\prod_i{l_{ii}^2}\]

IV. 特徵分解(Eigendecomposition)&對角化(Diagonalization)

1. 對角矩陣&類似矩陣

常見的對角矩陣形式以下:
\[ \begin{align} D= \left[ \begin{matrix} c_1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & c_n \notag \end{matrix} \right] \end{align} \]

注意:對角矩陣不必定是方陣,可是爲了方便解釋默認用對角方陣來講明。

很明顯對角矩陣相對於其餘形式的矩陣自然有不少計算上的優點,例如計算逆矩陣,行列式時都很是簡單,因此若是能把一個矩陣對角化,那麼不少問題就能夠解決了。

在介紹矩陣對角化以前簡單回覆一下類似矩陣(similar matrix) 的概念,即

若是存在一個可逆矩陣\(P\)使得兩個矩陣\(A,D\)知足\(D=P^{-1}AP\),那麼則稱\(A,D\)類似。

2. 可對角化(Diagnolizable)

  • 定義
    因此可對角化(Diagnolizable) 可定義以下:

    若是一個矩陣\(A\)和一個對角矩陣類似,則稱\(A\)可對角化。也就是說若是存在一個可逆矩陣\(P\)使得兩個矩陣\(A,D\)知足\(D=P^{-1}AP\),且\(D\)爲對角矩陣,那麼則稱\(A\)可對角化。

  • 對角化條件
    那麼何時才能對角化呢?答案在下面的特徵值分解/對角化定理中:

    當且僅當方陣\(A∈R^{n×n}\)滿秩(即有n個獨立的特徵向量)時,有
    \[A=PDP^{-1}\]
    其中\(P\)是由\(A\)的特徵矩陣組成的可逆矩陣,\(D\)是由\(A\)的特徵值組成的對角矩陣。

  • 虧損矩陣
    基於上面的介紹,很天然地給出虧損矩陣(defective matrix) 的定義:

    n階矩陣\(A\)如有n個線性無關的特徵向量(n個特徵值也要各不相同),稱\(A\)非虧損矩陣,即\(A\)有完備的線性無關的特徵向量系。反之稱\(A\)虧損矩陣

  • 對稱矩陣對角化

任何對稱矩陣均可以對角化,即
\[ \begin{align} S&=PDP^{-1} \notag\\ &=PDP^T \notag \end{align} \]
其中\(P\)是由n個正交特徵向量組成的矩陣(此時有\(P^{-1}=P^T\),證實略),\(D\)是特徵值組成的對角矩陣

下圖直觀地給出了對稱矩陣對角化的過程:

上圖可劃分紅四個部分,按順時針順序分別簡稱爲LT(Left-Top),RT(Right-Top),LB(Left-Bottom),RB(Right-Bottom)。

LT\(p_1,p_2\)表示矩陣\(A∈R^{2×2}\)的單位特徵向量(長度爲1)。

  • LT→RT:單位圓按照\(A\)特徵向量的方向伸縮,伸縮比例等於\(A\)的特徵值大小。由於\(A\)的對稱矩陣,因此其特徵向量是互相獨立且正交的,由圖能夠清楚地看到\(p_1⊥p_2\);
  • LT→LB: 由於\(A\)的對稱矩陣,因此有\(P^T=P^{-1}\),因此能夠\(P^T\)理解成將座標軸體系由\(p_1,p_2\)座標體系逆向還原成傳統的\(e_1,e_2\)座標體系。因此矩陣的本質其實也能夠理解成對座標軸的變換,這個觀點相信你在看了文末給出的【理解矩陣】系列文章後會有更深入的理解。
  • LB→RB: 若是上面的介紹你理解了,那麼這一過程也就很天然地可以理解了。沒錯,該步驟就表示在將座標軸還原到傳統意義上的座標軸後對LB的單位圓按照特徵值大小進行伸縮。
  • RB→LT: 對座標軸進行變換。

參考




MARSGGBO原創




2018-12-18

相關文章
相關標籤/搜索