降維
高維向量處理的時候會極大的消耗系統資源。
降維方法:
主成分分析、線性判別分析、等距映射、局部線性嵌入、拉普拉斯特徵映射、局部保留投影。
PCA最大方差理論
咱們假設原始數據的特徵向量組成的高維空間有不少冗餘和噪聲。
降維的意義:
去掉噪聲數據。
尋找內部特徵,提高特徵表達能力,下降訓練複雜度。
主成分分析(PrincipalComponentsAnalysis,PCA):
經典
線性、非監督、全局的降維算法。
主成分是什麼?
使用二維空間直觀理解:
有一條「主軸」使得原始樣本數據分佈的很「分散」。
原始數據在「主軸」這個方向上「方差更大」。
類別信號處理:
信號具備較大方差,
噪聲具備較小方差。
信噪比越大意味着數據質量越高。
PCA的缺點:
PCA的優化目標
最大化投影方差,也就是讓數據在主軸上投影的方差最大。
PCA優化過程
一、樣本數據中心化處理
爲了後面計算方差的方便
二、求樣本協方差矩陣
假設一個投影方向的單位方向向量爲w。
注意,最後求出的w由w1,w2...,wd組成,
另外w跟樣本數據的維度同樣,
w自己是樣本數據投影在上面方差的向量。
單位方向向量方便求解。
那麼原始樣本向量xi在假設向量w上的投影公式:
那麼投影后的方差能夠表示爲:
公式中wt和w中間的就是樣本協方差矩陣,記作Σ。
三、對協方差矩陣進行特徵值分解,將特徵值從大到小排列。
轉化爲在特定條件下最大化問題,問題表示爲:
引入拉格朗日乘子對w求導得出公式:
進而得出這個:
由這個公式得出x投影后的方差就是協方差矩陣的特徵值。
解釋上句話:Σ是樣本的協方差矩陣,λ 是Σ的特徵值。D(x)是投影后的方差,與λ相等。
因此推導這麼多,咱們找到了要找的方差,那就是樣本協方差矩陣的特徵值。
最大投影方向也就找到了,
那就是樣本協方差矩陣最大特徵值所對應的特徵向量(根據特徵值與特徵向量的性質)。
第二大也就是第二大特徵值對應的特徵向量。
四、取特徵值前d大對應的特徵向量ω1,ω2,...,ωd
至關於樣本保留前d大投影方向的數據性質。
n維樣本映射到d維公式:
降維後的信息佔比:
大概能夠理解爲前d個特徵值與全部特徵值佔比。
PCA最小平方偏差理論