維度的詛咒是一種現象,即數據集維度的增長致使產生該數據集的表明性樣本所需的指數級更多的數據。 爲了對抗維度的詛咒,已經開發了許多線性和非線性降維技術。這些技術旨在經過特徵選擇或特徵提取來減小數據集中維度(變量)的數量, 而不會顯着丟失信息。特徵提取是將原始數據集轉換爲維數較少的數據集的過程。兩個衆所周知的,密切相關的特徵提取技術是主成分分析(PCA)和自組織映射(SOM)。人們能夠把降維做爲一個渡槽系統來理解數據的河流。算法
主成分分析(PCA)機器學習
主成分分析(PCA)是一種統計算法,用於將一組可能相關的變量轉換爲一組稱爲主成分的變量的不相關線性重組。簡而言之,主要組成部分,ÿ,是咱們數據集中變量的線性組合, X,那裏的權重, ËĴŤ是從咱們的數據集的協方差或相關矩陣 的特徵向量導出的。函數
第一個主要成分是使數據點距離的平方和最小的直線。它是單行數據集的最小二乘逼近。所以,第一個主要組成部分解釋了數據集的最高變異量。而後從數據集中提取殘差並計算下一個主成分。如此,每一個連續的部件解釋較少的方差,從而從中減小了變量的個數 X, 米,主要組件的數量, ķ。在使用PCA時存在一些挑戰。從而從中減小了變量的個數 X, 米,主要組件的數量, ķ。在使用PCA時存在一些挑戰。首先,該算法對數據集中變量的大小敏感,所以建議採用平均中心,而採用相關矩陣X由於它是正常化的。 PCA的另外一個挑戰是它本質上是線性的。PCA的非線性適應包括非線性PCA和內核PCA。工具
自組織映射(SOM)學習
自組織映射(SOMs)最初是由Kohonen在20世紀90年代中期發明的,有時也被稱爲Kohonen Networks。SOM是一種多維縮放技術,它構建了一些底層數據集的機率密度函數的近似值,X,這也保留了該數據集的拓撲結構。spa
這是經過映射輸入向量來完成的, X一世在數據集中, X,權重矢量, w ^Ĵ,特徵地圖中的(神經元) w ^。保留拓撲結構簡單地意味着若是兩個輸入向量靠近在一塊兒X,那些輸入向量映射到的神經元 w ^也將緊密結合在一塊兒。這是SOM的特色。blog
若是SOM中的神經元數量少於數據集中的模式數量,那麼咱們將下降數據集的維數...而不是輸入或權向量的維數。所以,由SOM執行的維度下降的類型與由PCA執行的降維類型不一樣,而且SOM實際上更相似於諸如K均值聚類的 聚類算法。排序
然而,SOM和聚類的區別在於數據集的聚類將(通常來講)保留數據集的機率密度函數,而不是數據集的拓撲結構。這使SOM特別有用於可視化。經過定義一個將給定權向量轉化爲顏色的次函數,咱們可以將底層數據集的拓撲結構,類似性和機率密度函數可視化爲一個較低的維數(一般是兩維由於網格)。開發
PCA的應用rem
「Weka是數據挖掘任務的機器學習算法集合,它能夠直接應用於數據集,也能夠從您本身的Java代碼中調用.Weka包含數據預處理,分類,迴歸,聚類,關聯規則,可視化,也很是適合開發新的機器學習方案。「 [ 來源 ]
WEKA中的一個特性是選擇屬性和降維的工具。其中一個支持的算法是主成分分析。本示例將PCA應用於包含12個相關技術指標的.CSV文件。冗餘是致使模型(特別是機器學習模型)過分擬合的數據質量之一。
相關矩陣技術指標
若是咱們把它加載到WEKA中,咱們將看到數據集的一些基本的描述性統計,包括每一個變量(技術指標)的直方圖,以及它們的最小值,最大值,平均樣本統計量和標準差樣本統計量。
在選擇屬性選項卡中,選擇主要組件屬性評估器,WEKA將自動選擇排序器搜索方法。
點擊開始後,WEKA提取前五個主要組件。能夠看出,前三個主成分與收盤價的相關係數分別爲0.6224,0.3660和0.1643。知道PCA,這三個組成部分是不相關的,理論上至少應包含有關指數運動的不一樣信息。