特徵選擇方法:app
(1)方差法spa
看特徵是否發散,若是方差接近於0,也就是該特徵基本沒有差別,對於樣本的區分基本沒用,應該刪去。blog
計算各個特徵的方差,而後設定閾值,選擇方差大於閾值的特徵。遞歸
(2)皮爾森相關係數變量
皮爾森相關係數衡量特徵與目標值之間的相關性,只能衡量線性相關性。方法
(3)卡方檢驗im
檢驗定性自變量對定型因變量的相關性。db
(4)互信息法img
互信息計算公式:嵌入式
====以上四種方法爲過濾式方法=====
(5)遞歸特徵消除法(Wrapper包裹式)
使用一個基模型來進行多輪訓練,每輪訓練後消除若干權值係數的特徵,再基於新的特徵集進行下一輪訓練。
(6)基於樹模型的特徵選擇法(Embedd 嵌入式)
樹模型中的GBDT可用來做爲基模型進行特徵選擇