機器學習算法(九)—— 降維與主成分分析法

1、什麼是降維

降維,就是將數據由原來的n個特徵(feature)縮減爲k個特徵(可能從n箇中直接選取k個,也能根據這n個從新組合成k個)。可起到數據壓縮的做用(於是也就存在數據丟失)。算法

PCA,即主成分分析法,屬於降維的一種方法。其主要思想就是 :根據原始的n個特徵(也就是n維),從新組合出k個特徵,且這k個特徵能最大量度地涵蓋原始的數據信息(雖然會致使信息丟失)。函數

有一個結論:當某一維的方差越大時,其所包含的信息量也越大,代表其越重要;反之則反。因此,PCA的主要工做就是:重構出k個特徵,使其所包含的信息量最大。優化

什麼是主成分分析法

舉一個簡單的例子,上面的圖片中這組數據具備兩個特徵分別爲特徵一和特徵二,咱們若是隻考慮其中的一個特徵的話,那麼就須要將這組數據投影到X軸(特徵1)或Y軸(特徵2)上。blog

比較兩種投影結果,咱們認爲第一種(投影至X軸)的投影效果更好,由於點與點之間的距離比較稀疏,能更好的區分各個樣本,反觀投影至Y軸上的結果,點與點之間比較緊湊,樣本之間不容易區分。圖片

但是這樣的投影方式是否是最好的呢?基礎

咱們繼續思考是否存在這樣一條直線,當咱們把全部的點投影到這條直線上時,全部點之間的距離最大呢?變量

所以咱們的目標轉換爲如何尋找到這樣一條讓樣本間距離最大的軸,可是在這以前,咱們應該先知道如何來定義樣本間的距離?事實上,在統計學中,方差正好知足咱們的需求,它表示樣本間總體疏密程度。重構

2、主成分分析法步驟

對於如何找到一個軸,使得樣本空間的全部點映射到這個軸的方差最大。搜索

第一步:樣本歸0方法

將樣本進行均值歸0(demean),即全部樣本減去樣本的均值。樣本的分佈沒有改變,只是將座標軸進行了移動。

轉化爲了

由於如今的均值已經爲零,所以就有了以下公式

3、總結

主成分分析方法(PCA),是數據降維算法。將關係緊密的變量變成儘量少的新變量,使這些新變量是兩兩不相關的,即用較少的綜合指標分別表明存在於各個變量中的各種信息,達到數據降維的效果。

所用到的方法就是「映射」:將n維特徵映射到k維上,這k維是全新的正交特徵也被稱爲主成分,是在原有n維特徵的基礎上從新構造出來的k維特徵。咱們要選擇的就是讓映射後樣本間距最大的軸。

其過程分爲兩步:

  • 樣本歸0

  • 找到樣本點映射後方差最大的單位向量 最後就能轉爲求目標函數的最優化問題:

    求w,使得 最大。

此時,咱們就能夠用搜索策略,使用梯度上升法來解決

相關文章
相關標籤/搜索