特徵工程是數據分析中最耗時間和精力的工做, 更可能是工程上的經驗和權衡。 問題導向+專家導向: 諮詢業務數據相關的專家對特徵維度有個初步瞭解。 哪些特徵影響大,特徵影響小
小於某個閾值的特徵過濾掉。 方差: 小於某個閾值直接捨棄。 相關係數: 主要用於輸出連續值的監督學習算法中。 分別計算全部訓練集中各個特徵與輸出值之間的相關係數。 假設檢驗: 卡方檢驗,檢驗某個特徵分佈和輸出值分佈之間的相關性。 F檢驗和t檢驗 互信息(信息增益): 互信息值越大,說明該特徵和輸出值之間的相關性越大,越須要保留。
根據目標函數,每次選擇若干特徵或者排除若干特徵,直到選擇出最佳的子集。 嵌入法:先使用某些機器學習的算法和模型進行訓練,獲得各個特徵的權值係數,根據係數從大到小選擇特徵。相似於Filter方法,可是是經過訓練來肯定特徵的優劣。
參考