[轉]淺談PCA的適用範圍

線性代數主要講矩陣,矩陣就是線性變換,也就是把直線變成直線的幾何變換,包括過原點的旋轉、鏡射、伸縮、推移及其組合。特徵向量是對一個線性變換很特殊的向量:只有他們在此變換下可保持方向不變,而對應的特徵值就是該向量縮放的比例。最大特徵值和對應的特徵向量就意味着在該方向上方向不變且縮放比例能達到最大。注意到特徵向量自然正交,不然他們在別的特徵方向上會發生方向的改變。

在此基礎上再來理解PCA降維:樣本協方差陣是變量間的相關性度量,在高斯假設下它是協方差的充分統計量,根據對稱陣可正交分解,它的最大特徵值所對應特徵向量的方向,就是對數據正交變換後縮放比例最大的方向,這意味着該方向上信噪比最大,如此就使該數據的第一大方差落在第一個座標上,依次類推。具體的推導,能夠使用拉格朗日乘數法求解變換後數據的方差最小化問題獲得。機器學習

以上咱們易得PCA降維的適用範圍是:線性假設意味着變量量綱不一樣時要很是當心,反過來也說明爲啥圖像識別該方法甚爲有效;高斯假設意味着當樣本不符合指數族分佈時就是白忙活,由於樣本協方差陣實際上只使用了均值和方差,對指數族分佈這纔是充分統計量(sufficient statistic)。此外還有主成分正交和信噪比很大兩個廣泛假設。主成分正交的解釋是,既然PCA降維至關於找個向量讓數據在上面投影方差最大,而求解該優化問題後發現這個向量正是特徵向量,而特徵向量自然是正交的。信噪比很大是機器學習可以work的理論基礎。學習

應當指出的是,PCA降維的出發點不是分類也不是聚類,它只是對原始數據的一種變換,能夠用更少的維度保存最多的信息(數學語言即變換後的數據與原來數據的均方偏差最小化)優化

相關文章
相關標籤/搜索