降維算法中的PCA方法

1 主成分分析
(Principal Component Analysis,PCA)算法

2 線性判別分析
(Linear Discriminant Analysis, LDA)
研究背景
基本知識介紹
經典方法介紹
總結討論
問題的提出ide

地理系統是多要素的複雜系統。在地理學研究中,多變量問題是常常會遇到的。變量太多,無疑會增長分析問題的難度與複雜性,並且在許多實際問題中,多個變量之間是具備必定的相關關係的。學習

所以,人們會很天然地想到,可否在相關分析的基礎上,用較少的新變量代替原來較多的舊變量,並且使這些較少的新變量儘量多地保留原來變量所反映的信息?設計

降維的動機
原始觀察空間中的樣本具備極大的信息冗餘
樣本的高維數引起分類器設計的「維數災難」
數據可視化、特徵提取、分類與聚類等任務需求
降維算法中的PCA方法
降維算法中的PCA方法
在進行祝成分分析後後,居然以97.4%的精度,用三個變量取代了原來的17個變量。
線性降維
經過特徵的線性組合來降維
本質上是把數據投影到低維線性子空間
線性方法相對比較簡單且容易計算
表明方法
主成分分析(PCA)
線性判別分析(LDA)
多維尺度變換(MDS)
主成分分析(PCA) [Jolliffe, 1986]
降維目的:尋找可以保持採樣數據方差的最佳投影子空間
求解方法:對樣本的散度矩陣進行特徵值分解, 所求子空間爲通過樣本均值, 以最大特徵值所對應的特徵向量爲方向的子空間降維算法中的PCA方法
主成分分析(PCA) [Jolliffe, 1986]
PCA對於橢球狀分佈的樣本集有很好的效果, 學習所得的主方向就是橢球的主軸方向.
PCA 是一種非監督的算法, 能找到很好地表明全部樣本的方向, 但這個方向對於分類未必是最有利的
降維算法中的PCA方法
線性判別分析(LDA) [Fukunaga, 1991]
降維目的:尋找最能把兩類樣本分開的投影直線,使投影后兩類樣本的均值之差與投影樣本的總類散度的比值最大
求解方法:通過推導把原問題轉化爲關於樣本集總類內散度矩陣和總類間散度矩陣的廣義特徵值問題
降維算法中的PCA方法
線性降維方法比較
主成分分析 (PCA) [Jolliffe, 1986]
線性判別分析 (LDA) [Fukunaga, 1991]
降維算法中的PCA方法
線性降維方法的不足
降維算法中的PCA方法
原始數據沒法表示爲特徵的簡單線性組合
好比:PCA沒法表達Helix曲線流形3d

1、主成分分析的基本原理code

假定有n個地理樣本,每一個樣本共有p個變量,構成一個n×p 階的地理數據矩陣
降維算法中的PCA方法
當p 較大時,在p 維空間中考察問題比較麻煩。爲了克服這一困難,就須要進行降維處理,即用較少的幾個綜合指標代替原來較多的變量指標,並且使這些較少的綜合指標既能儘可能多地反映原來較多變量指標所反映的信息,同時它們之間又是彼此獨立的。
定義:記x1,x2,…,xP爲原變量指標,z1,z2,…,zm(m≤p)爲新變量指標
降維算法中的PCA方法
係數lij的肯定原則:
① zi與zj(i≠j;i,j=1,2,…,m)相互無關;
②z1是x1,x2,…,xP的一切線性組合中方差最大者,z2是與z1不相關的x1,x2,…,xP的全部線性組合中方差最大者;
……
zm是與z1,z2,……,zm-1都不相關的x1,x2,…xP, 的全部線性組合中方差最大者。blog

則新變量指標z1,z2,…,zm分別稱爲原變量指標x1,x2,…,xP的第一,第二,…,第m主成分。
從以上的分析能夠看出,主成分分析的實質就是肯定原來變量xj(j=1,2 ,…, p)在諸主成分zi(i=1,2,…,m)上的荷載 lij( i=1,2,…,m; j=1,2 ,…,p)。
從數學上容易知道,從數學上能夠證實,它們分別是的相關矩陣的m個較大的特徵值所對應的特徵向量。 ip

2、計算步驟

1)構建p*n階的變量矩陣ci

2)將p*n階的變量矩陣X的每一行(表明一個屬性字段)進行標準化數學

3)求出協方差矩陣C

4)求出協方差矩陣的特徵值及對應的特徵向量

5)將特徵向量按對應特徵值大小從上到下按行排列成矩陣,取前k列組成矩陣P

6)Y=XP即爲降維到k維後的數據

相關文章
相關標籤/搜索