降維-主成分分析

  在高維情形下出現的數據樣本稀疏、距離計算困難等問題,是全部機器學習方法共同面臨獲得嚴重障礙,被稱爲「維數災難」。緩解維數災難的一個重要途徑是降維。也稱「維數約簡」,即經過某種數學變換將原始高維屬性空間轉變爲一個低維子空間,在這個子空間中樣本密度大幅度提升,距離計算也變得更爲容易。算法

  對降維效果的評估,一般是比較降維先後學習器的性能,若性能有所提升則認爲降維起到了做用。若將維數降至二維或三維,則可經過可視化技術來直觀地判斷降維效果。網絡

  維數下降技術包括:主成分分析,因子分析,典型相關分析,多維標度法,神經網絡,流行學習等等。機器學習

 

主成分分析:PCA函數

  是最經常使用的一種降維方法。利用正交變化把一系列可能線性相關的變量轉換成一組線性不相關的新變量,也稱爲主成分,從而利用新變量在更小的維度下展現數據的特徵。主成分是原有變量的線性組合,其數目很少於原始變量。組合以後,至關於咱們得到了一批新的觀測數據,這些數據的含義不用於原有數據,但包含了以前數據的大部分特徵,而且有着較低的維度,便於進一步分析。性能

 

  在空間上,PCA能夠理解爲把原始數據投射到一個新的座標系統,第一主成分爲第一座標軸,它的含義表明了原始數據中多個變量通過某種變換獲得的新變量的變化區間;第二主成分爲第二座標軸,表明了原始數據中多個變量通過某種變換獲得獲得第二個新變量的變化區間。咱們把利用原始數據解釋樣本的差別轉變爲利用新變量解釋樣本的差別。學習

  這種投射方式會有不少,爲了最大限度保留對原始數據的解釋,通常會用最大方差理論或最小損失理論,使得第一主成分有着最大的方差或變異數(就是說其能儘可能多的解釋原始數據的差別);隨後的每個主成分都與前面的主成分正交,且有着僅次於前一主成分的最大方差(正交簡單的理解就是兩個主成分空間夾角爲90度,二者之間無線性關聯,從而 完成去冗餘操做)。   spa

                    

 

  首先考慮一個問題:對於正交屬性空間上的樣本點,如何用一個超平面(直線的高維推廣)對全部樣本進行恰當的表達?blog

  能夠想到,若存在這樣的超平面,那麼它大概具備這樣的性質:內存

  最近重構性:樣本點到這個超平面的距離都足夠近。即下圖中全部紅線(即投影形成的損失)加起來最小。rem

 

  最大可分性:樣本點在這個超平面上的投影儘量地分開,即下圖中紅線所示,需最大化投影點的方差。

 

 

 基於最近重構性和最大可分性分別獲得主成分分析的兩種等價推導。

 

 

PCA算法總結:做爲一個非監督學習的降維方法,它只須要特徵值分解,就能夠對數據進行壓縮,去噪。所以在實際場景應用很普遍。爲了克服PCA的一些缺點,出現了不少PCA變種,好比爲解決非線性降維的KPCA,還有解決內存限制的增量PCA方法Incremental PCA,以及解決稀疏數據降維的PCA方法Sparse PCA等。

  優勢:

  1. 僅僅須要以方差衡量信息量,不受數據集之外的因素影響。

  2. 各主成分之間正交,可消除原始數據成分間的相互影響的因素。

  3. 計算方法簡單,主要運算是特徵值分解,易於實現。

  缺點:

  1. 主成分各個特徵維度的含義具備必定的模糊性,不如原始樣本特徵的解釋性強。

  2. 方差小的非主成分也可能含有對樣本差別的重要信息,因降維丟棄可能對後續數據處理有影響。

 

 

核化線性降維---核主成分分析-KPCA:

  線性降維方法假設從高維空間到低維空間的函數映射是線性的,然而,在很多現實任務中,可能須要非線性映射才能找到恰當的低維嵌入。非線性降維的一種經常使用方法,是基於核技巧對線性降維方法進行「核化」。

 

 

 

補充閱讀:

流形學習:是一類借鑑了拓撲流形概念的降維方法。「流形」是在局部與歐式空間同胚的空間,換言之,它在局部具備歐式空間的性質,能用歐式距離來進行距離計算。這給降維方法帶來了很大的啓發:若低維流形嵌入到高維空間中,則數據樣本在高維空間的分佈雖然看上去很是複雜,但在局部上仍具備歐式空間的性質。所以,能夠容易地在局部創建降維映射關係,而後再設法將局部映射關係推廣到可視化。

 

度量學習:在機器學習中,對高維數據進行降維的主要目的是但願找到一個合適的低維空間,在此空間中進行學習能比原始空間性能更好。每一個空間對應了樣本屬性上定義的一個距離度量,而尋找合適的空間,實質上就是在尋找一個合適的距離度量。---這個度量學習的基本動機。

相關文章
相關標籤/搜索