當數據維數比較大時,就須要進行降維,特徵選擇是降維的一種主要方式,又包括3種方法:Filter、Wrapper和Enbedding。算法
過濾器方法,這種方法首先選定特徵,再來進行學習。根據每個屬性的一些指標(如方差等),來肯定這個屬性的重要程度,而後對全部屬性按照重要程度排序,從高到低的選擇屬性。選定了屬性之後,再來進行訓練。好比Fisher Score、Laplacian Score等。這種方法其實不大好,由於決定特徵選擇效果的不是單個的屬性,而是屬性的集合,好比屬性A、B、C,單個來看效果很差,可是它們組合起來效果有可能不錯。app
包裹器方法,這種方法把選定的特徵集用分類器進行訓練,用訓練效果(如準確率等)來做爲特徵集的評價。好比將啓發式搜索、GA等。這種方法和分類器相結合,比較直觀,和Filter相比也更加合理。缺點是計算開銷較大。學習
嵌入式方法,即把特徵選擇的過程做爲學習過程的一部分,在學習的過程當中進行特徵選擇,最典型的如決策樹算法。spa