《機器學習實戰》PCA簡化數據

一、降維技術 1.1 數據降維的必要性 <1>多重共線性--預測變量之間相互關聯。多重共線性會導致解空間的不穩定,從而可能導致結果的不連貫。 <2>高維空間本身具有稀疏性。一維正態分佈有68%的值落於正負標準差之間,而在十維空間上只有0.02%。 <3>過多的變量會妨礙查找規律的建立。 <4>僅在變量層面上分析可能會忽略變量之間的潛在聯繫。例如幾個預測變量可能落入僅反映數據某一方面特徵的一個組內。
相關文章
相關標籤/搜索