特徵工程(Feature Enginnering)學習記要

時間 2019-11-06

標籤特徵工程 feature enginnering 學習記要简体版

原文原文鏈接

最近學習特徵工程（Feature Enginnering）的相關技術，主要包含兩塊：特徵選取（Feature Selection）和特徵抓取（Feature Extraction）。這裏記錄一些要點，做爲備忘。

特徵選取

R中的FSelector包實現了一些特徵選取的算法，主要分兩大類：

Algorithms for filtering attributes: cfs, chi.squared, information.gain, gain.ratio, symmetrical.uncertainty, linear.correlation, rank.correlation, oneR, relief, consistency, random.forest.importance

屬性過濾器：直接經過一些統計指標，計算變量與y的關係，而後根據必定規則選取理想的值。

Algorithms for wrapping classifiers and search attribute subset space: best.first.search, backward.search, forward.search, hill.climbing.search

分類器包裝：經過包裝特定的分類/迴歸算法，並使用一些通用的優化算法，選取具備最有效果的屬性組合。

屬性過濾器可能效率更高，可是效果不直接。而分類包裝器可能效果更直接，可是計算開銷大。

特徵抓取

主要是重已有的數據中，建立新的數據。

Design Userful Features這篇文章，經過軸承的例子，從三個方面描述了特徵抓取的方法，

領域知識：這點最好與領域專家一塊兒討論
統計量：無需領域知識，通用的統計量，如均值，中位數，分位數，最大最小值，偏度，峯度等
數據可視化：經過閃點圖，分佈度等方法，找到特殊的特殊性，建立feature。可視化以前須要預處理數據，如傅里葉變化，PCA，查看原始數據等。

參考

R FSelector包說明文檔
R caret包，參考文章 Feature Selection
論文 An Introduction to Variable and Feature Selection, by Andre Elisseeff
使用快速傅里葉變化進行feature提取的例子
知乎：傅里葉變換掐死教材

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。