第5章 高維線性代數函數
與第2章同樣,在試圖求解高維線性微分方程系統以前,咱們必須熟悉一下高維的線性代數。雖然在高維,矩陣的不一樣標準形個數變得多了,但在做座標變換將矩陣化爲標準形的過程當中所用的代數思想大多都在$2\times 2$情形時出現過了。特別地,當矩陣具備不一樣(實的或復的)特徵值時,除了增長不多的代數複雜性外,能夠做相似處理,於是咱們首先解決這種情形。在5.6節,咱們會看到,這是一種「通有」情形。處理重特徵值時須要用到更復雜的代數概念,相應的背景知識將在5.4節給出。spa
5.1 線性代數預備知識it
主要內容包括:線性無關、線性相關、標準基、子空間、初等變換(每個初等變換矩陣都是可逆的,這是由於將對應的初等變換逆向操做就能夠獲得它的逆。做爲推論,初等矩陣的乘積都是可逆的。因而,若是將$\boldsymbol A$做初等變換化爲行簡化階梯形(單位矩陣)的對應的初等矩陣記爲$\boldsymbol {L_1,\cdots,L_n}$,則有$(\boldsymbol {L_n \cdots L_1}) = \boldsymbol A^{-1}$。即,若是對任意的$\boldsymbol V \in \mathbb R^n$,向量方程$\boldsymbol {AX} = \boldsymbol V$有惟一解,則$\boldsymbol A$可逆。這樣就獲得了咱們第一個重要的結果。lambda
命題 設$\boldsymbol A$爲一$n \times n$矩陣,則代數方程系統$\boldsymbol {AX} = \boldsymbol V$對任意$\boldsymbol V \in \mathbb R^n$都有惟一解當且僅當$\boldsymbol A$可逆。im
5.2 特徵值和特徵向量語言
在第3章咱們已經看到,特徵值和特徵向量在求解線性微分方程系統的過程當中起到了相當重要的做用。集合
定義 一個向量$\boldsymbol V$稱爲$n \times n$矩陣$\boldsymbol A$的一個特徵向量,若是$\boldsymbol V$是線性方程組系統$(\boldsymbol A-\lambda \boldsymbol I)\boldsymbol V = 0$的一個非零解。其中的數量$\lambda$(並未說是實的!)稱爲$\boldsymbol A$的一個特徵值,而稱$\boldsymbol V$是屬於(相應於)$\lambda$的一個(由於一個特徵值能夠對應多個)特徵向量。di
命題 假設$\lambda_1,\cdots,\lambda_l$是$\boldsymbol A$的實不一樣特徵值,$\boldsymbol V_1,\cdots,\boldsymbol V_l$爲分別屬於它們的特徵向量,則$\boldsymbol V_j$是線性無關的。時間
當咱們回頭考慮微分方程時,重要的則是:time
推論 假設$\boldsymbol A$爲$n \times n$矩陣,具備實不一樣特徵值,則存在矩陣$\boldsymbol T$使得
\[\boldsymbol T^{-1}\boldsymbol {AT} = \left( \begin{array}{l}\lambda_1 \\ & \ddots \\ & & \lambda_n \end{array} \right),\]
其中對角線之外元素都是0。
證實 設$\boldsymbol V_j$是屬於$\lambda_j$的特徵向量。定義線性映射$\boldsymbol T$使得$\boldsymbol {TE}_j = \boldsymbol V_j$,其中$\boldsymbol E_j$是$\mathbb R^n$的標準基。即$\boldsymbol T$是以$\boldsymbol {V_1,\cdots,V_n}$爲列向量的矩陣。由於$\boldsymbol V_j$是線性無關的,故$\boldsymbol T$可逆,從而就有
\[(\boldsymbol {T^{-1}AT)E}_j = \boldsymbol {T^{-1}AV}_j = \lambda_j \boldsymbol {T^{-1}V}_j = \lambda_j \boldsymbol E_j.\]
即,$\boldsymbol {T^{-1}AT}$的第$j$列正好就是向量$\lambda_j\boldsymbol E_j$,這也就是咱們要證的。
5.3 復特徵值
如今咱們來處理$\boldsymbol A$具備非實特徵值的情形。假設$\alpha + \text i \beta$是$\boldsymbol A$的一個特徵值,其中$\beta \ne 0$。因爲$\boldsymbol A$的特徵方程具備實係數,於是,若是$\alpha + \text i \beta$是一個特徵值,則它的複共軛$\overline {\alpha + \text i \beta} = \alpha - \text i \beta$也是一個特徵值。
如今假設$\boldsymbol A$是一個$2n \times 2n$矩陣,它具備不一樣的非實特徵值$\alpha \pm \text i \beta,j=1,\cdots,n$,記$\boldsymbol V_j,\overline {\boldsymbol V_j}$爲屬於它們的特徵向量。那麼,與上節的命題同樣,全部這些特徵向量構成的向量組是線性無關的,即,若是有
\[\sum\limits_{j=1}^n(c_j\boldsymbol V_j + d_j\overline {\boldsymbol V_j}) = 0,\]
其中$c_j,d_j$如今爲複數,則對全部的$j$,必有$c_j=d_j=0$。
如今咱們來作座標變換將$\boldsymbol A$化爲標準形。令
\[\begin {array}{l}\boldsymbol W_{2j-1}&= \frac {1}{2}(\boldsymbol V_j + \overline {\boldsymbol V_j})\\ \boldsymbol W_{2j}&= \frac {-\text i}{2}(\boldsymbol V_j - \overline {\boldsymbol V_j}). \end{array}\]
注意這裏$\boldsymbol W_{2j-1},\boldsymbol W_{2j}$都是實向量,事實上,$\boldsymbol W_{2j-1}$是$\boldsymbol V_j$的實部,而$\boldsymbol W_{2j}$是$\boldsymbol V_j$的虛部。利用$\boldsymbol W_j$進行操做就把咱們又帶回$\mathbb R^n$的世界。
命題 向量組$\boldsymbol {W_1,\cdots,W_{2n}}$是線性無關的。
如今定義線性映射$\boldsymbol T$使得$\boldsymbol {TE_j = W_j},j=1,\cdots,2n$,即,與$\boldsymbol T$相關的矩陣的列向量爲$\boldsymbol {W_1,\cdots,W_{2n}}$。可見,這個矩陣具備實元素。因爲向量組$\boldsymbol W_j$是線性無關的,因此$\boldsymbol T$可逆,且有
\[\boldsymbol T^{-1}\boldsymbol {AT} = \left( \begin{array}{l}D_1 \\ & \ddots \\ & & D_n \end{array} \right),\]
其中$\boldsymbol D_j$爲以下$2 \times 2$矩陣
\[\boldsymbol D_j = \left( \begin{array}{l} \alpha_j &\beta_j \\ -\beta_j & \alpha_j \end{array} \right).\]
這就是具備不一樣非實特徵值矩陣的標準形(對角化後的形式)。
將本節和上節的結果結合起來,咱們獲得:
\[\boldsymbol T^{-1}\boldsymbol {AT} = \left( \begin{array}{l} \lambda_1 \\&\ddots \\ && \lambda_k \\ &&& D_1 \\ &&&& \ddots \\ &&&&& D_n \end{array} \right),\]
其中$\boldsymbol D_j$爲以下$2 \times 2$矩陣
\[\boldsymbol D_j = \left( \begin{array}{l} \alpha_j &\beta_j \\ -\beta_j & \alpha_j \end{array} \right).\]
5.4 基和子空間
定義 設$S$爲$\mathbb R^n$的一個子空間,向量組$\boldsymbol V_1,\cdots,\boldsymbol V_k$稱爲$S$的一個基,若是這些$\boldsymbol V_j$是線性無關的而且張成$S$。
與平面情形同樣,咱們稱一個函數$\boldsymbol T:\mathbb R^n \to \mathbb R^n$爲線性的,若是存在一個$n \times n$矩陣$\boldsymbol A$使得$\boldsymbol {T(X) = AX}$;此時稱$\boldsymbol T$爲一個線性映射或線性變換。由矩陣的性質,對任意的$\alpha,\beta \in \mathbb R^n$,咱們有,
\[\boldsymbol T(\alpha \boldsymbol X + \beta \boldsymbol Y) = \alpha \boldsymbol T(\boldsymbol X) + \beta \boldsymbol T(\boldsymbol Y).\]
咱們稱線性映射$\boldsymbol T$爲可逆的,若是相應的矩陣$\boldsymbol A$可逆。
對於研究線性微分方程系統而言,最重要的子空間是線性映射的核和值域。全部被$\boldsymbol T$映射爲0的向量構成的集合稱爲$\boldsymbol T$的核(可理解爲將$\boldsymbol T$變換爲0的向量構成的集合或空間),記爲$\text {Ker}\boldsymbol T$。$\boldsymbol T$的值域(可理解爲$\boldsymbol T$所能張成的空間)(記爲 $\text {Range}\boldsymbol T$)則由全部這樣的向量$\boldsymbol W$構成:存在向量$\boldsymbol V$使得$\boldsymbol {TV} = \boldsymbol W$。
命題 設$\boldsymbol T:\mathbb R^n \to \mathbb R^n$爲一線性映射,則$\text {Ker}\boldsymbol T$和$\text {Range}\boldsymbol T$都是$\mathbb R^n$的子空間,並且有
\[\text {dim}\; \text {Ker}\boldsymbol T + \text {dim}\; \text {Range}\boldsymbol T = n.\]
命題的證實詳見書本。注意核空間、值域空間、補空間、直和等之間的區別和聯繫。
5.5 重特徵值
在本節中,咱們來描述當矩陣有重特徵值時的標準形。爲了避免在發展通常理論時花費過多的時間,咱們將只對有重特徵值的$3\times 3$和$4 \times 4$矩陣做詳細討論。關於具備重特徵值矩陣最通常的結論是:
命題 設$\boldsymbol A$爲一個$n \times n$矩陣,則存在座標變換$\boldsymbol T$使得
\[\boldsymbol T^{-1}\boldsymbol {AT} = \left( \begin{array}{l}B_1 \\ & \ddots \\ & & B_k \end{array} \right),\]
其中每一個$\boldsymbol B_j$都是一個方陣(而其它全部的元素都是零),它的形式爲如下二者之一:
\[(\text i)\left( \begin{array}{l} \lambda&1 \\ & \lambda&1 \\ && \ddots & \ddots \\ &&& \ddots &1 \\ &&&& \lambda \end{array} \right)\;\;\;(\text {ii}) \left( \begin{array}{l} \boldsymbol C_2 & \boldsymbol I_2 \\ & \boldsymbol C_2 & \boldsymbol I_2 \\ && \ddots & \ddots \\ &&& \ddots & \boldsymbol I_2 \\ &&&& \boldsymbol C_2 \end{array} \right),\]
其中
\[\boldsymbol C_2 = \left( \begin{array}{l} \alpha & \beta \\ -\beta & \alpha \end{array} \right), \;\; \boldsymbol I_2 = \left( \begin{array}{l} 1 & 0\\ 0& 1 \end{array} \right), \]
而且這裏的$\alpha,\beta,\lambda \in \mathbb R,\beta \ne 0$。此外,特別情形$\boldsymbol B_j = (\lambda)$或
\[\boldsymbol C_2 = \left( \begin{array}{l} \alpha & \beta \\ -\beta & \alpha \end{array} \right)\]
固然也是允許的。
先考慮$\mathbb R^3$的情形。若是$\boldsymbol A$在$\mathbb R^3$中具備重特徵值,則全部的特徵值都是實的(爲何呢?由於兩重複根就是四維了)。此時有兩種情形,要麼有兩個不一樣的特徵值,其中一個是重的,要麼全部的特徵值都相同。前一種情形能夠利用在第3章中所描述的相似過程進行處理,於是咱們只關心$\boldsymbol A$僅有一個三得特徵值$\lambda$的情形。
命題 假設$\boldsymbol A$爲一個$3 \times 3$矩陣,具備惟一的特徵值$\lambda$。則能夠找到座標變換使得$\boldsymbol T^{-1} \boldsymbol {AT}$爲下面的三種形式之一:
\[\text {(i)} \left( \begin{array}{l} \lambda & 0 & 0 \\ 0 & \lambda & 0 \\ 0 & 0 & \lambda \end{array} \right)\;\; \text {(ii)} \left( \begin{array}{l} \lambda & 1 & 0 \\ 0 & \lambda & 0 \\ 0 & 0 & \lambda \end{array} \right)\;\; \text {(iii)} \left( \begin{array}{l} \lambda & 1 & 0 \\ 0 & \lambda & 1\\ 0 & 0 & \lambda \end{array} \right).\]
證實詳見書本。證實的過程說明了核和值域不必定是直和的關係,反而每每是真包含的關係。
5.6 通有性
咱們已經提到過,「大多數」矩陣具備不一樣特徵值,本節的目標就是使這句話嚴格化。
先複習$\mathbb R^n$中的一些拓撲概念。一個集合$\mathcal U \subset \mathbb R^n$稱爲開的,若是對任意$\boldsymbol X \in \mathcal U$,總有$\boldsymbol X$的一個開球包含在$\mathcal U$中,即,存在某個$a>0$(依賴於$\boldsymbol X$),使得$\boldsymbol X$中半徑爲$a$的開球
\[\left\{\boldsymbol Y\in {{\mathbb R}^{n}} \left | \left| \boldsymbol Y-\boldsymbol X \right|<a \right. \right\}\]
包含在$\mathcal U$中。用幾何語言,能夠說成:若是$\boldsymbol X$屬於開集$\mathcal U$,則充分靠近$\boldsymbol X$的點也在$\mathcal U$中(感受是集合能夠有限大,但又沒有邊界)。
$\mathbb R^n$中的另一種子集是所謂的稠密集:$\mathcal U \subset \mathbb R^n$稱爲稠密的,若是$\mathbb R^n$中的每個點均可以被$\mathcal U$中的點任意接近。精確地說,若是$\boldsymbol X \in \mathbb R^n$,則對於每個$\epsilon > 0$,都存在某個$\boldsymbol Y \in \mathcal U$,使得$|\boldsymbol X - \boldsymbol Y| < \epsilon $。$\mathcal U$在$ \mathbb R^n$稠密的一個等價描述是:對於每個非空開集$\mathcal V \subset \mathbb R^n$,$\mathcal V \cap \mathcal U$都是非空的。例如,全體有理數構成了$\mathbb R$的一個稠密子集,全體無理數也是如此。
$\mathbb R^n$中一類有趣的子集是所謂的既開又稠密的集合。這樣的一個集合$\mathcal U$能夠由以下的性質來刻畫:$\mathcal U$的餘集中的點能夠被$\mathcal U$中的點任意逼近(由於$\mathcal U$爲稠密),可是$\mathcal U$沒有點能夠被$\mathcal U$的餘集中的點任意逼近(由於$\mathcal U$是開集,能逼近$\mathcal U$中點的點都在$\mathcal U$中,挺拗口吧)。
下面的命題說明,開稠集是一種很「胖」的集合。
命題 設$\mathcal V_1,\cdots,V_m$都是$\mathbb R^n$中的開稠集,則
\[\mathcal V = \mathcal V_1 \cap \cdots \cap \mathcal V_m\]
也是開稠的。
因而咱們能夠這樣認爲,$\mathbb R^n$中的子集若是含有一個開稠集,則它是大的。爲了使「大多數」矩陣這一說法嚴格化,咱們須要在全部矩陣的集合中引入開稠集的概念。記$L(\mathbb R^n)$爲$n \times n$矩陣的集合,這也就是$\mathbb R^n$上全部線性映射的集合。
定理 $L(\mathbb R^n)$中由具備$n$個不一樣特徵的矩陣所構成的集合$\mathcal M$在$L(\mathbb R^n)$中是開稠的。(證實詳見書本)
矩陣的一個性質$\mathcal P$稱爲一個通有性質,若是具備性質$\mathcal P$的矩陣的集合包含$L(\mathbb R^n)$中的一個開稠集。從而,一個性質是通有的,若是矩陣的某一開稠集都這個性質(其它矩陣也可能具備)。直觀地說,通有性質就是指「幾乎全部」矩陣都具備的性質。從而,具備不一樣特徵值是$n \times n$矩陣的一個通有性質。(意思是沒必要擔憂,由於多數狀況下,方陣都具備不一樣的特徵值,但具備重徵值的矩陣也是無數的)