矩陣論(三):矩陣分解—從Schur分解、特徵值分解EVD到奇異值分解SVD(下)

Schur分解、特徵值分解、奇異值分解是三種聯繫十分緊密的矩陣分解,它們的關係是 S c h u r E V D S V D Schur\rightarrow{}EVD\rightarrow{}SVD ,也就是說由Schur分解可以推導出EVD,再推導出SVD。

本篇博客討論特徵值分解和奇異值分解的相關內容。上篇博客(鏈接)討論的是Schur分解以及利用Schur分解能夠解決的若干問題,其中包括大名鼎鼎的Hamilton-Cayley定理。

本文內容以線性代數知識爲基礎(主要是特徵值和相似的知識):
矩陣論(零):線性代數基礎知識整理(1)——逆矩陣、初等變換、滿秩分解
矩陣論(零):線性代數基礎知識整理(2)——矩陣的秩與向量組的秩
矩陣論(零):線性代數基礎知識整理(3)——矩陣的秩與向量組的秩
矩陣論(零):線性代數基礎知識整理(4)——線性空間與線性變換
矩陣論(零):線性代數基礎知識整理(5)——特徵值與相似

  • 特徵值分解EVD
    • 正規矩陣與EVD
    • EVD得到矩陣的特徵值和特徵向量
    • EVD的構造方法
    • EVD用於求矩陣的逼近
    • 實正規矩陣的正交相似擬對角化(拓展內容)
  • 奇異值分解SVD
    • SVD的存在性定理
    • SVD的構造方法(簡介)
    • SVD的性質
    • SVD用於求矩陣的逼近
    • SVD在推薦系統中的應用

特徵值分解EVD(正規矩陣)

與Schur分解不同的是,特徵值分解(又叫譜分解)要求將方陣酋對角化,這比schur分解的要求更高(Schur分解只是酋相似上三角化)。實際上,只有一類特殊的方陣才能進行特徵值分解,這類特殊的方陣是正規矩陣。下面介紹特徵值分解EVD。

  • 定義(譜分解):設有n階方陣A。若存在n階酋矩陣U和對角矩陣 Σ \Sigma 使得 A = U Σ U H A=U\Sigma{U^H} ,則稱 A = U Σ U H A=U\Sigma{U^H} 是A的一個譜分解

  • 定義(正規矩陣):若n階方陣A滿足 A H A = A A H A^HA=AA^H ,則稱A是正規矩陣
    (容易驗證Hermite矩陣(共軛對稱矩陣)、實對稱矩陣、酋矩陣等都是正規矩陣)

  • 引理4:任意一個上三角矩陣S,若S是正規矩陣,則S必然是對角矩陣
    證明:(對S的階數n進行歸納)
    當n=1時,S本身就是對角矩陣。假定結論對n-1成立,現證明結論對n也成立。設 S = [ S 1 b 0 H a ] S=\begin{bmatrix}S_1&b\\0^H&a\end{bmatrix} ,其中a是一個標量, S 1 S_1 是一個n-1階上三角陣。計算可得 S H S = [ S 1 H S 1 S 1 H b b H S 1 b H b + a ˉ a ] S^HS=\begin{bmatrix}S_1^HS_1&S_1^Hb\\b^HS_1&b^Hb+\bar{a}a\end{bmatrix} S S H = [ S 1 S 1 H + b b H a ˉ b a b H a a ˉ ] SS^H=\begin{bmatrix}S_1S_1^H+bb^H&\bar{a}b\\ab^H&a\bar{a}\end{bmatrix} ,由 S H S = S S H S^HS=SS^H b H b + a ˉ a = a a ˉ b^Hb+\bar{a}a=a\bar{a} ,故 b H b = b 2 = 0 b^Hb=||b||^2=0 ,故 b = 0 b=0 ,故 S 1 S 1 H + b b H = S 1 S 1 H = S 1 H S 1 S_1S_1^H+bb^H=S_1S_1^H=S_1^HS_1 ,即 S 1 S_1 是正規矩陣,由歸納假設知 S 1 S_1 是對角矩陣。則 S = [ S 1 0 0 H a ] S=\begin{bmatrix}S_1&0\\0^H&a\end{bmatrix} 是對角矩陣,得證。

  • 定理12:n階方陣A酋相似於一個對角矩陣的充要條件爲A是正規矩陣
    證明:
    必要性:若A酋相似於一個對角矩陣,即存在酋矩陣U和對角矩陣 Σ \Sigma 使得 A = U Σ U H A=U\Sigma{U^H} ,則 A H A = U Σ U H U Σ U H = U Σ Σ U H A^HA=U\overline{\Sigma}U^HU\Sigma{U^H}=U\overline{\Sigma}\Sigma{U^H} A A H = U Σ U H U Σ U H = U Σ Σ U H AA^H=U\Sigma{U^H}U\overline{\Sigma}U^H=U\Sigma{}\overline{\Sigma}U^H ,注意到 Σ Σ = Σ Σ \overline{\Sigma}\Sigma=\Sigma\overline{\Sigma} ,故 A H A = A A H A^HA=AA^H
    充分性:設A的Schur分解爲 A = P T P H A=PTP^H ,其中P是酋矩陣,T是上三角矩陣。由A是正規矩陣,將A代入 A H A = A A H A^HA=AA^H P T H T P H = P T T H P H PT^HTP^H=PTT^HP^H ,故 T H T = T T H T^HT=TT^H ,即上三角矩陣T是正規矩陣。於是由引理4知T是對角矩陣,故A酋相似於對角矩陣T。證畢。

EVD得到矩陣的特徵值和特徵向量

定理12說明僅正規矩陣可進行譜分解。在探討譜分解有何用處之前,我們先認識一下譜分解究竟是怎樣的,看看分解出來的對角矩陣是什麼,以及那個酋矩陣到底是什麼:

  • 定理13:設正規矩陣A的譜分解爲 A = U Σ U H A=U\Sigma U^H ,則 λ \lambda 是A的特徵值的充要條件爲 λ \lambda Σ \Sigma 的主對角線上,且A的每個特徵值的代數重數等於其在 Σ \Sigma 的主對角線上出現的次數
  • 定理14:設n階正規矩陣A的譜分解爲 A = U Σ U H A=U\Sigma U^H ,且 Σ = d i a g ( λ 1 , . . . , λ n ) \Sigma=diag(\lambda_1,...,\lambda_n) U = [ u 1 u n ] U=\begin{bmatrix}u_1&\cdots&u_n\end{bmatrix} ,則 u i u_i 是A對應於特徵值 λ i \lambda_i 的特徵向量,且 u 1 , . . . , u n u_1,...,u_n C n C^n 的標準正交基
    證明:由 A = U Σ U H A=U\Sigma U^H A U = U Σ AU=U\Sigma ,故 A u i = λ i u i , i = 1 , . . . , n Au_i=\lambda_iu_i,i=1,...,n ,即 u i u_i 是A對應於特徵值 λ i \lambda_i 的特徵向量。因爲U是酋矩陣,所以 u 1 , . . . , u n u_1,...,u_n C n C^n 的標準正交基。
    【推論】n階正規矩陣A有n個相互正交的特徵向量
    【推論】n階正規矩陣A的任意特徵值的幾何重數與代數重數相等

上面兩個定理的結論解釋了「特徵值分解」這個名稱的來源,之所以稱之爲特徵值分解,是因爲其既分解出了特徵值,還分解出了對應的特徵向量。特徵值分解還表明,正規矩陣的特徵值和特徵向量包含了原矩陣的「全部信息」,因此我們可以通過一定的方法利用特徵值和特徵向量重構出原矩陣。

EVD的構造方法

實際上,我們已經知道U的列向量組是A的單位正交特徵向量組,那麼怎麼求出A的n個單位正交的特徵向量呢?我們容易保證屬於同一特徵值的特徵向量間的正交性(只要求出該特徵值對應的特徵子空間的標準正交基即可),但是,如何保證不同特徵值的特徵向量間的正交性呢?實際上,正規矩陣本身的性質就保證了這一點。下面我們就來看看正規矩陣的性質:

  • 定理15:設A是正規矩陣,則 A A A H A^H 的特徵值互爲共軛,且 A A 對應於 λ \lambda 的特徵子空間 V λ V_\lambda A H A^H 對應於 λ ˉ \bar{\lambda} 的特徵子空間 V λ ˉ V_{\bar{\lambda}} 相同,即 V λ = V λ ˉ V_\lambda=V_{\bar{\lambda}}
    證明:
    將A譜分解得 A = U Σ U H A=U\Sigma U^H ,則 A H = U Σ U H A^H=U\overline{\Sigma}U^H 。因爲 Σ \Sigma Σ \overline{\Sigma} 主對角線上對應的元素互爲共軛,所以A和 A H A^H 的特徵值互爲共軛。又 A U = U Σ AU=U\Sigma A H U = U Σ A^HU=U\overline \Sigma ,且U的列向量組是正交向量組,所以 A A 的特徵子空間 V λ V_\lambda A H A^H 的特徵子空間 V λ ˉ V_{\bar{\lambda}} 有同一組正交基,故 V λ = V λ ˉ V_\lambda=V_{\bar{\lambda}}
  • 定理16:設A是正規矩陣,則A對應於不同特徵值的特徵向量是正交的
    證明:
    λ \lambda μ \mu 是A的兩個不同特徵值, x x y y 分別是A的對應於 λ \lambda μ \mu 的特徵向量,即 λ μ , A x = λ x , A y = μ y , x 0 , y 0 \lambda \neq \mu,Ax=\lambda x,Ay=\mu y,x\neq 0,y\neq 0 。由定理15知 μ ˉ \bar \mu A H A^H 的特徵值,且由 y V μ , V μ = V μ ˉ y\in{V_\mu},V_\mu=V_{\bar \mu} y V μ ˉ y\in{V_{\bar \mu}} ,故 A H y = μ ˉ y A^Hy=\bar \mu y μ ˉ x H y = x H ( μ ˉ y ) = x H A H y = ( A x ) H y = λ ˉ x H y \bar \mu x^Hy=x^H(\bar \mu y )=x^HA^Hy=(Ax)^Hy=\bar \lambda x^Hy ( μ ˉ λ ˉ ) x H y = 0 (\bar \mu-\bar \lambda)x^Hy=0 ,由 λ μ \lambda \neq \mu x H y = 0 x^Hy=0 ,即 x x y y 是正交的,得證。

上面的定理說明只要求出A的每個特徵值的特徵子空間的標準正交基,那麼所有的這些基向量一定兩兩正交。於是,我們有如下方法來求正規矩陣的特徵值分解:
求正規矩陣的譜分解
求正規矩陣的譜分解
注意,之所以我們構造出的矩陣U是酋矩陣,是因爲U的列向量組是單位正交的(其中對應於同一特徵值的特徵向量兩兩正交,對應於不同特徵值的特徵向量也兩兩正交)。而這樣的 U U 一定可以保證構造出了 A A 的一個譜分解:
因爲 U H A U = [ u 11 H . . . u s r s H ] [ A u 11 . . . A u s r s ] = [ u 11 H . . . u s r s H ] [ λ 1 u 11 . . . λ s u s r s ] = [ λ 1 I r 1 λ s I r s ] U^HAU=\begin{bmatrix}u^H_{11}\\...\\u^H_{s_{r_s}}\end{bmatrix}\begin{bmatrix}Au_{11}&...&Au_{s_{r_s}}\end{bmatrix}\\=\begin{bmatrix}u^H_{11}\\...\\u^H_{s_{r_s}}\end{bmatrix}\begin{bmatrix}\lambda_1u_{11}&...&\lambda_su_{s_{r_s}}\end{bmatrix}=\begin{bmatrix}\lambda_1I_{r_1}&&\\&\ddots&\\&&\lambda_sI_{r_s}\end{bmatrix} 所以 A = U Λ U H A=U\Lambda U^H 是A的譜分解。

EVD的其他結論

譜分解還能得到其他一些有用的結論,如:

  • 定理17:設n階正規矩陣A的譜分解爲 A = U Σ U H A=U\Sigma U^H ,則 r ( A ) = r ( Σ ) r(A)=r(\Sigma) ,即A的秩等於A的非零特徵值的個數(如果重特徵值按重數算的話),零特徵值的代數重數爲 n r ( A ) n-r(A)
  • 定理18:共軛對稱矩陣A的特徵值都是實數
    證:
    因A是共軛對稱矩陣,故A是正規矩陣。考慮A的譜分解 A = U Σ U H A=U\Sigma U^H ,因爲 A H = A A^H=A ,即 U Σ U H = U Σ U H U\overline{\Sigma}U^H=U\Sigma U^H ,所以 Σ = Σ \overline{\Sigma}=\Sigma ,則對角矩陣 Σ \Sigma 的對角元都是實數,即A的特徵值都是實數。

此外,類似於schur分解,譜分解也可以加快矩陣的冪運算,且效果要更好。譜分解(酋相似對角化)是相似對角化的一個特殊情形,在相似對角化中有一個計算冪的經典例子:求斐波那契數列的通項,譜分解也能用在與之類似的情形。感興趣的讀者請參考矩陣論(零):線性代數基礎知識整理(5)——特徵值與相似

機器學習應用中,常常遇到實矩陣而非復矩陣的問題。爲避免複數運算,提高效率,需儘可能熟悉實矩陣中的相關結論:

  • 定理19:設 A R n × n A\in R^{n\times n} ,則 A A 存在譜分解 A = U Σ U T A=U\Sigma U^T (其中 U U 是實正交矩陣, Σ \Sigma 是實對角矩陣)的充要條件爲 A A 是實對稱矩陣
    證明:
    充分性:實對稱矩陣都是共軛對稱矩陣,故A的特徵值都是實數。考慮特徵方程 ( λ I A ) x = 0 (\lambda I-A)x=0 ,由於 λ \lambda 是實數, A A 是實矩陣,故 λ I A \lambda I-A 是實矩陣。取 N ( λ I A ) N(\lambda I-A) 的一組實向量基,根據前述譜分解的構造方法,可以構造出 A A 的一個譜分解 A = U Σ U T A=U\Sigma U^T ,其中 U U 是實正交矩陣, Σ \Sigma 是實對角矩陣。
    必要性:設 A A 存在譜分解 A = U Σ U T A=U\Sigma U^T ,其中 U U 是實正交矩陣, Σ \Sigma 是實對角矩陣,則有 A T = ( U Σ U T ) T = U Σ U T = A A^T=(U\Sigma U^T)^T=U\Sigma U^T=A
    【注】該定理的一個等價表述爲:任意實對稱矩陣必可正交相似對角化。

EVD用於求矩陣的逼近

譜分解在機器學習中有重要的應用,一個典型的例子就是主成分分析(PCA)。主成分分析能夠將高維數據「壓縮」成低維數據,在去噪的同時還能保留原數據的大部分主要特徵。PCA算法會在後面的博客中詳細說,這裏我們大致瞭解一下如何求得正規矩陣的近似矩陣,以達到去噪的效果:
設n階正規矩陣A的特徵值分解爲 A = U Σ U H A=U\Sigma U^H ,且 Σ = d i a g ( λ 1 , . . . , λ n ) \Sigma=diag(\lambda_1,...,\lambda_n) U = [ u 1 u n ] U=\begin{bmatrix}u_1&\cdots&u_n\end{bmatrix} 。則 A = [ u 1 u n ] d i a g ( λ 1 , . . . , λ n ) [ u 1 H u n H ] = [ λ 1 u 1 λ n u n ] [ u 1 H u n H ] = Σ i = 1 n λ i u i u i H \begin{aligned}A&=\begin{bmatrix}u_1&\cdots&u_n\end{bmatrix}diag(\lambda_1,...,\lambda_n)\begin{bmatrix}u_1^H\\\cdots\\u_n^H\end{bmatrix}\\&=\begin{bmatrix}\lambda_1u_1&\cdots&\lambda_nu_n\end{bmatrix}\begin{bmatrix}u_1^H\\\cdots\\u_n^H\end{bmatrix}\\&=\Sigma_{i=1}^n\lambda_iu_iu_i^H\end{aligned} 於是我們可以將原矩陣A看成是它的不同特徵的加權和。這樣我們就可以對A的特徵值按照模的大小排序,去掉模較小(注意特徵值是複數,在PCA中我們會對一個實對稱矩陣進行譜分解,此時特徵值都是實數,直接比較大小就行)的特徵值 λ \lambda 對應的項 λ u u H \lambda uu^H ,也就是去掉權重較小的項,就得到了A的一個近似矩陣。(顯然,去掉模越接近0的特徵值的對應項,得到的矩陣與原矩陣的近似程度越高)
不過,由於特徵值分解的適用性有限,我們無法對任何矩陣都使用特徵值分解的方法來求近似矩陣。但是,後面要說的奇異值分解是適用於任意矩陣的,而奇異值分解出的奇異值和奇異向量就類似於特徵值和特徵向量的作用,故奇異值分解可以用來「分解任意矩陣的特徵」。在求任意矩陣的近似矩陣時,可以使用SVD的方法。

實正規矩陣的正交相似擬對角化(拓展內容)

我們在複數域下證明了正規矩陣必可酋對角化的結論,並且討論了實矩陣可正交相似對角化的充要條件(即必須是實對稱矩陣)。根據正規矩陣的定義可得,實正規矩陣就是滿足 A T A = A A T A^TA=AA^T 的矩陣 A A 。顯然,實對稱矩陣一定是實正規矩陣,但實正規矩陣不一定是實對稱陣(例如 A = [ 1 1 1 1 ] A=\begin{bmatrix}1&1\\-1&1\end{bmatrix} ),所以並非所有實正規矩陣都可以正交相似對角化。但是,我們可以將它們「近似」對角化,即正交相似擬對角化。
擬對角陣具有如下形式: [ R 11 R n n ] \begin{bmatrix}R_{11}&&\\&\ddots&\\&&R_{nn}\end{bmatrix} 其中對角子塊 R i i R_{ii} 1 × 1 1\times1 矩陣或具有一對共軛特徵值的 2 × 2 2\times 2 正規矩陣。(注意,爲表述方便,這裏的擬對角陣是狹義的)

  • 引理5:任意實的擬上三角陣 T T ,若 T T 是正規矩陣,則 T T 一定是擬對角陣
    證:(對 T T 對角線上的子塊個數n進行歸納)
    n = 1 n=1 時, T T 本身就是擬對角陣。假設命題對 n 1 n-1 成立,現證明命題對 n n 也成立。設 T = [ T 1 S O R ] T=\begin{bmatrix}T_1&S\\O&R\end{bmatrix} ,其中 R R 1 × 1 1\times1 矩陣或 2 × 2 2\times 2 矩陣。 T T T = [ T 1 T O S T R T ] [ T 1 S O R ] = [ T 1 T T 1 T 1 T S S T T 1 S T S + R T R ] T^TT=\begin{bmatrix}T_1^T&O\\S^T&R^T\end{bmatrix}\begin{bmatrix}T_1&S\\O&R\end{bmatrix}=\begin{bmatrix}T_1^TT_1&T_1^TS\\S^TT_1&S^TS+R^TR\end{bmatrix} T T T = [ T 1 S O R ] [ T 1 T O S T R T ] = [ T 1 T 1 T + S S T S R T R S T R R T ] TT^T=\begin{bmatrix}T_1&S\\O&R\end{bmatrix}\begin{bmatrix}T_1^T&O\\S^T&R^T\end{bmatrix}=\begin{bmatrix}T_1T_1^T+SS^T&SR^T\\RS^T&RR^T\end{bmatrix} T T T = T T T T^TT=TT^T S T S + R T R = R R T S^TS+R^TR=RR^T ,進而 t r ( R R T ) = t r ( S T S ) + t r ( R T R ) = t r ( S T S ) + t r ( R R T ) tr(RR^T)=tr(S^TS)+tr(R^TR)=tr(S^TS)+tr(RR^T) ,故 t r ( S T S ) = 0 tr(S^TS)=0 S = O S=O T 1 T T 1 = T 1 T 1 T T_1^TT_1=T_1T_1^T 。於是 T = [ T 1 O O R ] T=\begin{bmatrix}T_1&O\\O&R\end{bmatrix} ,注意到 T 1 T_1 是有 n 1 n-1 個對角子塊的擬上三角陣,故由歸納假設知 T 1 T_1 是擬對角陣,進而 T T 也是擬對角陣。證畢。
  • 定理20: A R n × n A\in R^{n\times n} 正交相似於一個擬對角矩陣的充要條件爲A是正規矩陣
    證明:
    必要性:若A正交相似於一個擬對角矩陣,即存在正交矩陣U和擬對角矩陣 T T 使得 A = U T U T A=UTU^T ,則 A T A = U T T U T U T U T = U T T T U T A^TA=UT^TU^TUTU^T=UT^TTU^T A A T = U T U T U T T U T = U T T T U T AA^T=UTU^TUT^TU^T=UTT^TU^T ,注意到 T T 的對角子塊都是正規矩陣,故 T T T = T T T T^TT=TT^T ,故 A T A = A A T A^TA=AA^T
    充分性:設A的Schur分解爲 A = P T P T A=PTP^T ,其中P是正交矩陣,T是擬上三角矩陣。由A是正規矩陣,將A代入 A T A = A A T A^TA=AA^T P T T T P T = P T T T P T PT^TTP^T=PTT^TP^T ,故 T T T = T T T T^TT=TT^T ,即擬上三角矩陣T是正規矩陣。於是由引理5知T是擬對角矩陣,故A正交相似於擬對角矩陣T。證畢。

奇異值分解SVD(任意矩陣)

奇異值分解在機器學習領域的應用實在是太廣泛了:數據壓縮、推薦系統、自然語言處理等等到處都有它的身影。這裏介紹奇異值分解的數學推導,建議數學推導之外多瞭解一些應用和直觀的幾何解釋。推薦學習奇異值的幾何意義以及奇異值分解與特徵值分解的區別與聯繫,以上知乎鏈接中的回答多是從線性變換的角度來講解奇異值分解(實際上矩陣的幾何意義就是線性變換),這樣能夠較爲直觀得理解EVD和SVD。照片壓縮直觀地給出了奇異值分解在照片壓縮上呈現的效果。

  • 定義:設 A C r m × n A\in{C^{m\times{n}}_r} A H A A^HA 的特徵值爲 λ 1 λ 2 . . . λ r > λ r + 1 = . . . = λ n = 0 \lambda_1\geqslant \lambda_2\geqslant ...\geqslant\lambda_r\gt\lambda_{r+1}= ...=\lambda_n=0 σ i = λ i ( i = 1 , 2 , . . . , n ) A \sigma_i=\sqrt \lambda_i(i=1,2,...,n)爲A的奇異值
    【注1】關於 A H A A^HA 的特徵值爲什麼都是非負實數的問題請參考矩陣論(零):線性代數基礎知識整理(5)——特徵值與相似),注意奇異值都是非負的
    【注2】因爲 r ( A H A ) = r ( A ) = r r(A^HA)=r(A)=r ,且 A H A A^HA 是一個n階正規矩陣,故 A H A A^HA 的零特徵值的代數重數是 n r n-r ,這就是爲什麼 λ r + 1 = . . . = λ n = 0 \lambda_{r+1}=...=\lambda_n=0
    【注3】網上看到有的人把 A H A A^HA A A H AA^H 的特徵值完全等同起來,這是不對的(它們差就差在零特徵值上)。對奇異值的定義就是採用 A H A A^HA 的特徵值來定義,用 A A H AA^H 來定義是不準確的。(不過這不會影響奇異值分解的結果)

奇異值的相關性質:

  1. 奇異值的酋不變性(旋轉不變性):
  • 定理21:設U是酋矩陣,則 U A UA 的奇異值與 A A 的奇異值相同
    證明: ( U A ) H ( U A ) = A H U H U A = A H A (UA)^H(UA)=A^HU^HUA=A^HA ,故由奇異值的定義得 U A UA 的奇異值與 A A 的奇異值相同。
  • 定理22:設U是酋矩陣,則 A U AU 的奇異值與 A A 的奇異值相同
    證明: ( A U ) H ( A U ) = U H ( A H A ) U (AU)^H(AU)=U^H(A^HA)U ,即 ( A U ) H ( A U ) (AU)^H(AU) 酋相似於 A H A A^HA ,故它們的特徵值相同,由奇異值的定義得 A U AU 的奇異值與 A A 的奇異值相同。
  1. 逆矩陣的奇異值:
  • 定理23:設 A C n n × n A\in C^{n\times n}_n ,則 A A 的奇異值均非零。設 A A 的奇異值爲 σ 1 σ 2 σ n > 0 \sigma_1\geqslant \sigma_2\geqslant\cdots\geqslant\sigma_n\gt 0 ,則 A 1 A^{-1} 的奇異值爲 1 / σ n 1 / σ n 1 1 / σ 1 1/\sigma_n\geqslant1/\sigma_{n-1}\geqslant\cdots\geqslant1/\sigma_1
    證明:
    由奇異值定義的註釋2知 A A 的奇異值均爲正。設 A A H AA^H 的一個譜分解爲 A A H = U Σ U H AA^H=U\Sigma U^H ,其中 Σ = d i a g ( λ 1 , λ 2 , , λ n ) , λ 1 λ 2 λ n > 0 \Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n),\lambda_1\geqslant\lambda_2\geqslant\cdots\geqslant\lambda_n\gt 0 。由於 A H A A^HA A A H AA^H 的非零特徵值相同,且同一非零特徵值的代數重數相等,於是由奇異值的定義得 σ i = λ i , i = 1 , 2 , . . . , n \sigma_i=\sqrt{\lambda_i},i=1,2,...,n 。因爲 ( A 1 ) H A 1 = ( A A H ) 1 = U Σ 1 U H (A^{-1})^HA^{-1}=(AA^H)^{-1}=U\Sigma^{-1}U^H ,於是由奇異值的定義得 A 1 A^{-1} 的奇異值爲 1 / λ n 1 / λ n 1 1 / λ 1 1/\sqrt{\lambda_n}\geqslant1/\sqrt{\lambda_{n-1}}\geqslant\cdots\geqslant1/\sqrt{\lambda_1} ,即 1 / σ n 1 / σ n 1 1 / σ 1 1/\sigma_n\geqslant1/\sigma_{n-1}\geqslant\cdots\geqslant1/\sigma_1
  1. 正規矩陣的奇異值與特徵值的關係:
  • 定理24:設正規矩陣 A C n × n A\in C^{n\times n} 的奇異值爲 σ 1 σ 2 . . . σ n \sigma_1 \geqslant \sigma_2\geqslant...\geqslant\sigma_n ,特徵值爲 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n 滿足 λ 1   λ 2 . . . λ n |\lambda_1|\geqslant\ |\lambda_2|\geqslant ...\geqslant|\lambda_n| ,則 σ i = λ i , i = 1 , 2 , . . . , n \sigma_i=|\lambda_i|,i=1,2,...,n
    證明:
    設A的一個譜分解爲 A = U Σ U H A=U\Sigma U^H ,其中 Σ = d i a g ( λ 1 , λ 2 , . . . , λ n ) \Sigma = diag(\lambda_1,\lambda_2,...,\lambda_n) ,則 A H A = U Σ U H U Σ U H = U Σ Σ U H A^HA=U\overline{\Sigma}U^HU\Sigma U^H=U\overline{\Sigma}\Sigma U^H 。注意到該式是 A H A A^HA 的一個譜分解,且 Σ Σ \overline{\Sigma}\Sigma 的對角元爲 λ 1 2   λ 2 2 . . . λ n 2 |\lambda_1|^2\geqslant\ |\lambda_2|^2\geqslant ...\geqslant|\lambda_n|^2 ,故根據奇異值的定義得 σ i = λ i , i = 1 , 2 , . . . , n \sigma_i=|\lambda_i|,i=1,2,...,n

下面我們進入奇異值分解。

SVD的存在性定理

  • 定義1:設 A C r m × n A\in{C^{m\times{n}}_r} ,若存在m階酋矩陣U和n階酋矩陣V,以及 m × n m\times{n} 廣義對角矩陣 Λ = [ Σ O O O ] \Lambda=\begin{bmatrix}\Sigma&O\\O&O\end{bmatrix} ,其中 Σ = d i a g ( σ 1 , . . . , σ r ) \Sigma=diag(\sigma_1,...,\sigma_r) σ 1 . . σ r > 0 \sigma_1\geqslant ..\geqslant \sigma_r>0 爲A的非零奇異值,使得 A = U Λ V H A=U\Lambda V^H ,則稱 A = U Λ V H A=U\Lambda V^H 是A的一個奇異值分解
    【注1】由於在 Σ \Sigma 的對角線上 A A 的非零奇異值是從大到小排列的,故若 A A 的奇異值分解存在,則 Λ \Lambda 唯一。在有些資料的定義中,廣義對角矩陣 Λ \Lambda 的對角線元素的大小順序可以是任意的,但一般來說爲便於分析更常約束 Λ \Lambda 的對角線元素從大到小排列。
    【注2】由於 A H A A^HA A A H AA^H 的非零特徵值相同,且同一非零特徵值的代數重數相等,故A的非零奇異值既是 A H A A^HA 的非零特徵值的算數平方根,又是 A A H AA^H 的非零特徵值的算數平方根。
    【注3】由奇異值分解的定義及注2知,若 A = U Λ V H A=U\Lambda V^H 是A的一個奇異值分解,則 A H = V Λ U H A^H=V\Lambda U^H A H A^H 的一個奇異值分解(但需注意的是, A A 的奇異值與 A H A^H 的奇異值不完全等同,且只差在零奇異值上)

上述定義的條件可以減弱:

  • 定義2:設 A C m × n A\in C^{m\times n} ,若存在m階酋矩陣 U U 和n階酋矩陣 V V ,以及 m × n m\times{n} 廣義對角矩陣 Λ = [ Σ O O O ] \Lambda=\begin{bmatrix}\Sigma&O\\O&O\end{bmatrix}
相關文章
相關標籤/搜索