MIT線性代數公開課學習筆記第26~30課

時間 2019-11-25

標籤 mit 線性代數開課學習筆記简体版

原文原文鏈接

二十6、對稱矩陣及正定性

實對稱矩陣

實對稱矩陣是全部元素均爲實數的對稱矩陣。具備如下性質：函數

一、全部特徵值均爲實數spa
二、全部特徵向量均爲實向量設計
三、不一樣特徵值對應的特徵向量之間是正交的blog
四、具備n個線性無關的特徵向量遞歸
五、任意實對稱陣A均可以用正交陣\(P\)對角化：\(A=Q\Lambda Q^{-1}=Q\Lambda Q^T\)it

分析第一條性質

下面證實第1條性質：
由於\(A\)爲實對稱陣，從而\(\bar A=A,A^T=A\)
\[Ax=\lambda x\]io

兩邊同取共軛：class

\[\bar A \bar x=\bar \lambda \bar x \]lambda

兩邊同時轉置：方法

\[\bar x^T\bar {A^T} =\bar \lambda \bar x^T \]

\[\bar x^T A =\bar \lambda \bar x^T \]

兩邊同時右乘\(x\)

\[\bar x^T Ax =\bar \lambda \bar x^T x \]

\[\lambda \bar x^T x =\bar \lambda \bar x^T x \]

其中，\(\|x\|^2=\bar x^T x\)，又特徵向量模長不爲0，從而左右同時除去\(\bar x^T x\)即可獲得：

\[\bar\lambda=\lambda\]

分析第五條性質

國內線代教材已指出，可經過求出A的每一個特徵值的特徵向量，並對每一個特徵值的\(n-r(\lambda_iI-A)\)個線性無關的特徵向量施密特正交單位化後，獲得n個相互正交的單位特徵向量，將它們按列排列，便可獲得正交陣P=\((q_1,\cdots,q_n)\)，\(q_i\)對應於\(\Lambda\)中第i個主對角元，其值爲特徵向量\(q_i\)對應的特徵值

\[A=Q\Lambda Q^T=(q_1,\cdots,q_n)\mathrm{diag}(\lambda_1,\cdots,\lambda_n)(q_1,\cdots,q_n)^T \]

\[A=(q_1,\cdots,q_n)(\lambda_1q_1,\cdots,\lambda_nq_n)^T=\sum_{i=1}^n \lambda_iq_iq_i^T\]

正定矩陣

定義：正定矩陣是特殊的實對稱矩陣，其全部特徵值均大於0。\(x\neq 0\)時，對應的二次型\(x^TAx\)恆大於0

判斷實對稱陣是否正定的辦法：

一、求出全部特徵值，判斷是否都大於0
二、n個K階順序主子式均大於0
三、經過倍加操做將A化爲階梯型矩陣U後，判斷U的全部主元(必須有n個主元)是否所有大於0。更通常地，大於0的主元個數=大於0的特徵值個數，小於的主元個數=小於0的特徵值個數，

二十7、複數矩陣和快速傅里葉變換

複數向量的內積與模長

對於n維複數列向量\(x,y\in \mathbb{C}^n\)，其內積被定義爲：

\[x\cdot y=\bar x^T y\]

定義\(\bar x^T=x^H\)(hermitian)，則：

\[x\cdot y=x^Hy\]

相應地，n維複數列向量\(x\in \mathbb{C}^n\)的模長被定義爲：

\[\|x\|=\sqrt{x·x}=\sqrt{x^Hx}\]

複數矩陣、埃爾米特矩陣與酉矩陣

由複數構成的矩陣稱爲複數矩陣

相似以前的定義，也有

\[\bar A^T=A^H \]

對於複數方陣\(A\in \mathbb{C^{n\times n}}\)，若：

\[A^H=A \]

則稱A爲埃爾米特矩陣(Hermitian Matrix)，可見，埃爾米特矩陣中，與對角線對稱的\(a_{i,j}=\bar a_{j,i}\)

若方陣\(A\)有\(A^HA=I\)，則稱其爲酉矩陣，對應於實矩陣裏的正交矩陣。相似正交矩陣，在酉矩陣中，任意兩個列向量是正交的，\(\alpha^H\beta=0\)，一樣地，任意兩個行向量也是正交的

快速傅里葉變換

傅里葉矩陣

\[F_n=\begin{pmatrix}1 & 1 & 1 & \cdots & 1\\ 1 & w & w^2 & \cdots & w^{n-1}\\ 1 & w^2 & w^4 & \cdots & w^{2(n-1)}\\ \vdots & \vdots & \vdots & \ddots & \vdots\\ 1 & w^{n-1} & w^{2(n-1)} & \cdots & w^{(n-1)^2} \end{pmatrix}_{n \times n}\]

其中，\((F_n)_{i,j}=w^{ij}\)，注意傅里葉矩陣的下標是從0開始的，即i,j=0,...,n-1

\(\{1,w,\cdots,w^{n-1}\}\)爲n階單位根，\(w^n=1,w=e^{i\frac {2\pi} n }=\cos(\frac {2\pi} n)+i\sin(\frac {2\pi} n)\)(歐拉公式)

傅里葉矩陣是酉矩陣，\(F_n^HF_n=I\)

給出n維列向量x，x的離散傅里葉變換(DFT)可表示爲\(F_nx\)，離散傅里葉逆變換爲\(F_n^{-1}x\)

正常狀況下，這個乘法過程時間複雜度爲\(O(n^2)\)

矩陣分解實現快速傅里葉變換

令\(D_n=\mathrm{diag}(1,w,\cdots,w^{n-1})\)，則：

\[F_{2n}= \begin{pmatrix}I & D_n\\I & -D_n\end{pmatrix} \begin{pmatrix}F_n & 0\\0 & F_n\end{pmatrix}P_{2n}\]

其中P爲奇偶置換陣，將奇數列(行)排在前面，而後將偶數列(行)排在後面。例如：

\[P_4=\begin{pmatrix} 1 &&&\\ &&1&\\ &1&&\\ &&&1 \end{pmatrix}\]

則

\[F_{2n}x= \begin{pmatrix}I & D_n\\I & -D_n\end{pmatrix} \begin{pmatrix}F_n & 0\\0 & F_n\end{pmatrix}P_{2n}x\]

設\(P_{2n}x=(\alpha^T,\beta^T)^T\),其中\(\alpha,\beta\in \mathbb{R}^n\)

\[F_{2n}x= \begin{pmatrix}I & D_n\\I & -D_n\end{pmatrix} \begin{pmatrix}F_n & 0\\0 & F_n\end{pmatrix}(P_{2n}x)\]

\[=\begin{pmatrix}I & D_n\\I & -D_n\end{pmatrix} \begin{pmatrix}F_n & 0\\0 & F_n\end{pmatrix}\begin{pmatrix}\alpha\\ \beta\end{pmatrix}\]

\[=\begin{pmatrix}I & D_n\\I & -D_n\end{pmatrix} \begin{pmatrix}F_n\alpha & 0\\0 & F_n\beta\end{pmatrix}\]

求解\(\begin{pmatrix}I & D_n\\I & -D_n\end{pmatrix} \begin{pmatrix}F_n\alpha & 0\\0 & F_n\beta\end{pmatrix}\)時，計算量最大的是計算\(F_n\alpha,F_n\beta\)，這兩個計算完成後，其他的n階矩陣乘法都是在\(O(n)\)時間內完成(由於I和D都是對角陣)

FFT的關鍵是用這種矩陣分解的方法，遞歸下去計算\(F_{n}\alpha,F_{n}\beta\)

設計算\(F_nx\)的時間複雜度是\(f(n)\)，則

\[f(2n)=f(n)+n\]

\[f(2n)=n+\frac n 2+\frac n 4+\cdots +1= O(nlogn)\]

二十7、正定矩陣和最小值

正定矩陣的定義和斷定方法，在國內教材中都有，這裏再也不贅述

正定二次型的幾何意義

對於二次型\(f(x_1,x_2)=x^TAx\)而言，若A正定，則全部點\((x_1,x_2,f(x_1,x_2))\)在直角座標系中構成了一個開口向上，過原點的碗型(代表當\(x_1,x_2\)不一樣時爲0時，二次型取值必定大於0)。

若在這個碗型，z軸爲1處做一個平行於xoy面的平面，能夠截得一個橢圓：\(ax_1^2+bx_1x_2+cx_2^2=1\)

Hessian矩陣與極小值斷定

定義n元函數f的Hessian矩陣爲

當\(H(f)\)正定時，\(f(x)\)在該點取得極小值

正定二次型與主軸定理

對於正定二次型\(x^TAx\)，\(x^TAx=1\)是一個橢圓形(x爲三維向量則是橢球體)，\(A\)的n個線性無關的特徵向量表明該幾何圖形(橢圓、橢球...)的n條主軸的方向，每一個特徵向量對應的特徵值是該主軸的長度

經過將二次型化爲標準型\(x^T(P^TAP)x=1\)可使得該幾何圖形經過正交變換P，使得全部主軸與各個座標系平行

將二次型先化爲標準形，再化爲規範形\(x^T(P^TAP)x=1\)，則可使得該幾何圖形經過線性變換P，變爲標準的圓(球體,...)

二十9、類似矩陣與Jordan標準型

類似矩陣

對於方陣A,B，若存在可逆陣\(P\)使得\(P^{-1}AP=B\)，則\(A\sim B\)

注意，若方陣A,B中有一個不可對角化，則A,B有徹底相同的特徵值也不能獲得A和B類似。

只有當A,B有徹底相同的特徵值，均可對角化爲相同的\(\Lambda\)時，才能說A,B類似

Jordan標準型

設n階方陣A有K個線性無關的特徵向量\(x_1,\cdots,x_K\)，對應的特徵值爲\(\lambda_1,\cdots,\lambda_K\)，則必定存在可逆陣\(P\)使得

\[P^{-1}AP= \begin{pmatrix} J_1&&\\ &J_2&\\ &&\ddots\\ &&&J_K \end{pmatrix}=J\]

J稱爲A的Jordan標準型，其中\(J_i\)是一個Jordan塊，爲方陣，對應於K個線性無關的特徵向量裏的第i個，其中的\(\lambda_i\)是該特徵向量對應的特徵值:

\[J_i=\begin{pmatrix} \lambda_1&1&\\ &\lambda_2&1\\ &&\ddots&\ddots\\ &&&\lambda_{r_i} \end{pmatrix}\]

當K=n時，每一個Jordan塊都是一階的，J就是對角陣了

若J中對應\(\lambda_i\)的Jordan塊有t個，則\(\dim V_{\lambda_i}=t\)

三10、奇異值分解

任意m*n矩陣A均可以經過奇異值分解(singularly valueable decomposition,SVD)被分解爲：

\[A=U\Sigma V^T\]

其中，U是m階正交陣，V是n階正交陣，\(U=(u_1,\cdots,u_m)\),\(V=(v_1,\cdots,v_n)\)，\(\Sigma\)是\(m\times n\)對角陣

\((u_1,\cdots,u_m)\),\((v_1,\cdots,v_n)\)都是標準正交基，A矩陣可讓n維空間\(C(v_1,\cdots,v_n)\)投射到r(A)維空間中，即，將一組標準正交基\((v_1,\cdots,v_n)\)投射到\((Av_1,\cdots,Av_n)\)，而\(\dim (AV)= r(A)\)

當\(i\neq j\)時，\(v_i\cdot v_j=v_i^Tv_j=0\)，若\(v_i\)爲\(A^TA\)的單位化的特徵向量，則

\[v_i^TA^TAv_j=v_i^T\lambda_jv_j=\lambda_jv_i^Tv_j=0\]

從而，

\[Av_i\cdot Av_j=(Av_i)^TAv_j=v_i^TA^TAv_j=0\]

代表新基是正交基，再將投射後的新的正交基單位化：

\[u_i=\frac {Av_i}{\|Av_i\|}=\frac {Av_i}{\sqrt{v_i^TA^TAv_i}}=\frac {Av_i}{\sqrt{\lambda_iv_i^Tv_i}}=\frac {Av_i}{\sqrt {\lambda_i}}\]

因此\(Av_i=\sigma_i u_i,\sigma_i=\sqrt {\lambda_i}\)，用矩陣表示：

\[AV=U \Sigma \]

當\(r(A)<n\)時，對A的\(v_1,\cdots,v_{r(A)}\)，用A的零空間的n-r(A)個基\(v_{r(A)+1},\cdots,v_n\)擴充成n個正交基

計算過程

\[(A^TA)_{n\times n}=V\Sigma^TU^TU\Sigma V^T=V\Sigma^T\Sigma V^T\]

\(r(A^TA)=r(A)\)。

對n階對角陣\(A^TA\)用正交陣對角化，即可獲得\(V=(v_1,\cdots,v_n)\)，約定，\(v_1,\cdots,v_{r(A)}\)對應的特徵值非零，對角陣\(\Lambda=\Sigma^T\Sigma=\mathrm{diag}(\lambda_1,\cdots,\lambda_{r(A)},0,\cdots,0)\)

從而\(\lambda_i=\sigma_i^2,\sigma_i=\sqrt {\lambda_i}\)被稱爲奇異值，因爲\(\Lambda\)有r(A)個非零元素，所以奇異值有r(A)個

\[\Sigma= \begin{pmatrix} \sigma_1\\ & \ddots\\ && \sigma_{r(A)}\\ &&& 0 \end{pmatrix}_{m\times n}\]

\[(AA^T)_{m\times m}=U\Sigma V^TV\Sigma^T U^T=U\Sigma \Sigma^T U^T\]

對\(AA^T\)用正交陣對角化，獲得\(U=(u_1,\cdots,u_m)\)，這裏\(\Lambda=\Sigma\Sigma^T=\mathrm{diag}(\lambda_1,\cdots,\lambda_{r(A)},0,\cdots,0)\)

當\(\lambda_i\neq 0\)時\(u_i\)對應的\(\lambda_i\)應該與\(v_i\)對應的\(\lambda_i\)一致

SVD分解

\[A=U\Sigma V^T=(u_1,\cdots,u_m) \begin{pmatrix} \sigma_1\\ & \ddots\\ && \sigma_{r(A)}\\ &&& 0 \end{pmatrix}_{m\times n} \begin{pmatrix} v_1^T\\ \vdots\\ v_n^T \end{pmatrix} \]
\[ =(u_1,\cdots,u_m) \begin{pmatrix} \sigma_1v_1^T\\ \vdots\\ \sigma_{r(A)}v_{r(A)}^T\\ 0\\ \vdots\\ 0 \end{pmatrix} \]

\[ =\sum_{i=1}^{r(A)}\sigma_iu_iv_i^T \]

從而將矩陣分解成了r(A)個秩1矩陣之和，每一個秩1矩陣能夠用一個奇異值\(\sigma_i\)、兩個向量\(u_i,v_i\)表示。若這裏保留奇異值最大的前k個\(\sigma_i,u_i,v_i\)，則能夠進一步壓縮這個矩陣