文本挖掘之降維技術之特徵選擇

1、爲什麼要進行降維處理? 1.多重共線性--預測變量之間相互關聯。多重共線性會導致解空間的不穩定,從而可能導致結果的不連貫。 2.高維空間本身具有稀疏性。一維正態分佈有68%的值落於正負標準差之間,而在十維空間上只有0.02%。 3.過多的變量會妨礙查找規律的建立。 4.僅在變量層面上分析可能會忽略變量之間的潛在聯繫。例如幾個預測變量可能落入僅反映數據某一方面特徵的一個組內。 降維的目的: 1.
相關文章
相關標籤/搜索