學習筆記DL007:Moore-Penrose僞逆，跡運算，行列式，主成分分析PCA

時間 2020-01-12

標籤學習筆記 dl007 moore penrose 運算行列式成分分析 pca 简体版

原文原文鏈接

Moore-Penrose僞逆(pseudoinverse)。算法

非方矩陣，逆矩陣沒有定義。矩陣A的左逆B求解線性方程Ax=y。兩邊左乘左逆B，x=By。可能沒法設計惟一映射將A映射到B。矩陣A行數大於列數，方程無解。矩陣A行數小於列數，矩陣有多個解。微信

矩陣A的僞逆A + =lim a->0 (A T A+aI) -1 A T。計算僞逆公式，A + =VD + U T。矩陣U、D、V是矩陣A奇異值分解獲得矩陣。對角矩陣D僞逆D + 是非零元素取倒數後再轉置。矩陣A列數多於行數，僞逆求解線性方程是可能解法。x=A + y是方程全部可行解中歐幾里得範數||x|| 2 最小。矩陣A行數多於列數，沒有解。僞逆獲得x使得Ax和y的歐幾里得距離||Ax-y|| 2 最小。機器學習

跡運算。函數

返回矩陣對角元素和，Tr(A)=Sum i A i,i 。經過矩陣乘法和跡運算符號清楚表示矩陣運算。描述矩陣Frobenius範數,||A|| F =SQRT(Tr(AA T ))。跡運算在轉置運算下不變，Tr(A)=Tr(A T )。多個矩陣相乘方陣跡，矩陣最後一個挪到最前面相乘跡相同。需考慮挪動後矩陣乘積定義良好，Tr(ABC)=Tr(CAB)=Tr(BCA)，Tr(PRODUCT(n,i=1,F (i) ))=Tr(F (n) PRODUCT(n-1,i=1,F (i) ))。循環置換後矩陣乘積矩陣形狀變了，跡運算結果依然不變。矩陣A ELEMENT(R mn )，矩陣B ELEMENT(R nm )，獲得 Tr(AB)=Tr(BA)。AB ELEMENT(R mm )，BA ELEMENT(R nn )。標量在跡運算後還是本身，a=Tr(a)。學習

行列式。優化

det(A)，方陣A映射到實數函數。行列式等於矩陣特徵值的乘積。行列式絕對值衡量矩陣參與矩陣乘法後空間擴大或縮小多少。行列式是0，空間沿着某一維徹底收縮，失去全部體積。行列式是1，轉換保持空間體積不變。編碼

主成分分析(principal components analysis,PCA)。設計

簡單機器學習算法，基礎線性代數知識推導。R n 空間有m個點{x (1) ,…,x (m) }，有損壓縮，用更少內存，損失精度存儲。但願損失精度儘量少。低維表示，每一個點x (i) ELEMENT(R n )，一個對應編碼向量c (i) ，按比例放大D :,i ，保持結果不變。爲問題有惟一解，限制D全部列向量有單位範數。計算解碼器最優編碼困難。PCA限制D列向量彼此正交(除非l=n，嚴格意義D不是正交矩陣)。component

想法變算法。明確每個輸入x獲得一個最優編碼c * 。ip

最小化原始輸入向量x和重構向量g(c )間距離。範數衡量距離。PCA算法，用L 2 範數，c =argmin c ||x-g(c)|| 2 。用平方L 2 範數替代L 2 範數。相同值c上取得最小值。L 2 範數非負。平方運算在非負值上單調遞增。c =argmin c ||x-g(c)|| 2 2 。最小化函數簡化，(x-g(c)) T (x-g(c))。L 2 範數定義，=x T x-x T g(c)-g(c) T x +g(c) T g(c)。分配律，=x T x-2x T g(c)+g(c) T g(c)。標量g(c) T x轉置等於本身。第一項x T x 不依賴c，忽略，優化目標，c =argmin c -2x T g(c)+g(c) T g(c)。代入g(c)，c * =argmin c -2x T Dc+c T D T Dc=argmin c -2x T Dc+c T I l c。矩陣D正交性和單位範數約束，=argmin c -2x T Dc+c T c。

向量微積分求解最優化，NABLA(c, (-2x T Dc+c T c))=0，-2D T x+2c=0，c=D T x。算法高效。最優編碼x只須要一個矩陣-向量乘法操做。編碼向量，編碼函數，f(x)=D T x。矩陣乘法，定義PCA重構操做，r(x)=g(f(x))=DD T x。挑選編碼矩陣D。相同矩陣D對全部點解碼，不能孤立看待每一個點。最小化全部維數和全部點上的偏差矩陣Frobenius範數。D =argmin D SQRT(SUM(i,j,(x (i) j -r(x (i)) j )) 2 )subject to D T D=Il。推導尋求D 算法，l=1，D是單一貫量d。簡化D爲d，問題簡化。d =argmin d SUM(i,||x (i) -dd T x (i) || 2 2 )subject to ||d|| 2 =1。最美觀方式。標量d T x (i) 放在向量d右邊。標量放在左邊寫法更傳統。d =argmin d SUM(i,||x (i) -d T x (i) d|| 2 2 )subject to ||d|| 2 =1。標量轉置和自身相等。d * =argmin d SUM(i,||x (i) -x (i) T dd|| 2 2 )subject to ||d|| 2 =1。重排寫法。

單一矩陣重述問題。更緊湊符號。表示各點向量堆疊成矩陣。記X ELEMENT(R mn )。X i,: =x (i) T 。從新表述，d =argmin d ||X-Xdd T || 2 F subject to d T d=1。不考慮約束，Frobenius範數簡化。argmin d ||X-Xdd T || 2 F 。=argmin d Tr((X-Xdd T ) T (X-Xdd T ))。=argmin d Tr(X T X-X T Xdd T -dd T X T X+dd T X T Xdd T )。=argmin d Tr(X T X)-Tr(X T Xdd T )-Tr(dd T X T X)+Tr(dd T X T Xdd T )。=argmin d -Tr(X T Xdd T )-Tr(dd T X T X)+Tr(dd T X T Xdd T )。與d無關項不影響argmin，=argmin d -2Tr(X T Xdd T )+Tr(dd T X T Xdd T )。循環改變跡運算相乘矩陣順序不影響結果，=argmin d -2Tr(X T Xdd T )+Tr(X T X T Xdd T dd T )。考慮約束條件。argmin d -2Tr(X T Xdd T )+Tr(X T X T Xdd T dd T )subject to d T d=1。=argmin d -2Tr(X T Xdd T )+Tr(X T X T Xdd T )subject to d T d=1。=argmin d -Tr(X T X T Xdd T )subject to d T d=1。=argmax d Tr(X T X T Xdd T )subject to d T d=1。=argmax d Tr(d T X T X T Xd)subject to d T d=1。優化問題，特徵分解求解。最優d是X T X最大特徵值對應特徵向量。

以上推導特定於l=1狀況，僅獲得第一個主成分。獲得主成分的基時，矩陣D由前l個最大特徵值對應特徵向量組成。概括法證實。

參考資料：

《深度學習》

歡迎推薦上海機器學習工做機會，個人微信：qingxingfengzi

我有一個微信羣，歡迎一塊兒學深度學習。