讀書筆記《百面機器學習》二

降維

高維向量處理的時候會極大的消耗系統資源。

降維方法:
    主成分分析、線性判別分析、等距映射、局部線性嵌入、拉普拉斯特徵映射、局部保留投影。

PCA最大方差理論

咱們假設原始數據的特徵向量組成的高維空間有不少冗餘和噪聲。

降維的意義:
    去掉噪聲數據。
    
    尋找內部特徵,提高特徵表達能力,下降訓練複雜度。
    

主成分分析(PrincipalComponentsAnalysis,PCA):
    經典
    
    線性、非監督、全局的降維算法。

主成分是什麼?

使用二維空間直觀理解:
    有一條「主軸」使得原始樣本數據分佈的很「分散」。
    
    原始數據在「主軸」這個方向上「方差更大」。
    
類別信號處理:
    信號具備較大方差,
    
    噪聲具備較小方差。
    
    信噪比越大意味着數據質量越高。
    
PCA的缺點:

PCA的優化目標

最大化投影方差,也就是讓數據在主軸上投影的方差最大。

PCA優化過程

一、樣本數據中心化處理
        爲了後面計算方差的方便
    
    二、求樣本協方差矩陣
    
        假設一個投影方向的單位方向向量爲w。
        注意,最後求出的w由w1,w2...,wd組成,
        另外w跟樣本數據的維度同樣,
        w自己是樣本數據投影在上面方差的向量。
        單位方向向量方便求解。
        
        那麼原始樣本向量xi在假設向量w上的投影公式:

image.png

那麼投影后的方差能夠表示爲:

image.png

公式中wt和w中間的就是樣本協方差矩陣,記作Σ。


    三、對協方差矩陣進行特徵值分解,將特徵值從大到小排列。

        轉化爲在特定條件下最大化問題,問題表示爲:

image.png

引入拉格朗日乘子對w求導得出公式:

image.png

進而得出這個:

image.png

由這個公式得出x投影后的方差就是協方差矩陣的特徵值。
            
            解釋上句話:Σ是樣本的協方差矩陣,λ 是Σ的特徵值。D(x)是投影后的方差,與λ相等。
            
        因此推導這麼多,咱們找到了要找的方差,那就是樣本協方差矩陣的特徵值。  
        
        最大投影方向也就找到了,
        那就是樣本協方差矩陣最大特徵值所對應的特徵向量(根據特徵值與特徵向量的性質)。
        第二大也就是第二大特徵值對應的特徵向量。
    
    四、取特徵值前d大對應的特徵向量ω1,ω2,...,ωd
        至關於樣本保留前d大投影方向的數據性質。
            
        n維樣本映射到d維公式:

image.png

降維後的信息佔比:

image.png

大概能夠理解爲前d個特徵值與全部特徵值佔比。

PCA最小平方偏差理論

相關文章
相關標籤/搜索