[ML] 特徵工程

特徵工程

特徵工程包括:特徵構建、特徵提取、特徵選擇三個部分算法

Feature Construction 特徵構建

描述

從原始數據中人工的構建新的特徵,對數據敏感、分析能力強app

方法

  • 組合屬性函數

  • 切分屬性
    如:將數據中的日期字段 按照季度和週期或一天的上午、下午和晚上去構建學習

Feature Extraction 特徵提取

描述

將原始特徵轉換成一組具備物理意義或統計意義特徵的過程,好比:減小原始數據中某個特徵的取值個數spa

目的

  • Signal Representation 信號表示
    The goal of the feature extraction mapping is to represent the samples accurately in a low-dimensional space.orm

即:特徵抽取後的特徵要可以精確地表示樣本信息,使得嘻嘻你丟失很小(對應於PCA)遞歸

  • 信號分類
    The goal of the feature extraction mapping is to enhance the class-discriminatory information in a low-dimensional space.深度學習

特徵抽取後的特徵,要使得分類後的準確率很高,不能比原來特徵進行分類的準確率低,對線性來講,對應的方法是LDAio

方法

PCA、ICA、LDA、SIFT(圖像數據)form

Feature Selection 特徵選擇

描述

從特徵集合中挑選一組最具統計意義的特徵子集,從而達到降維的效果

特徵子集生成

功能

從特徵集合搜索特徵子集

Filter(篩選器,側重單個特徵)

  • 描述:自變量和目標變量的關聯,經過分析特徵子集內部的特色來衡量其好壞,而後選擇排名靠前的(如:top 10%)從而達到特徵選擇的目的

  • 評價函數: Pearson相關係數,Gini-index基尼指數,IG信息增益、互信息,卡方檢驗,Distance Metrics距離(類似性度量)

  • 優勢:計算時間上較高效,對於過擬合問題具備較高的魯棒性

  • 缺點:傾向於選擇冗餘的特徵,由於他們不考慮特徵間的相關性,有可能某一個特徵的分類能力差,但和其餘特徵結合會獲得不錯的效果

wrapper(封裝器,側重特徵子集)

  • 描述:實質上是一個分類器,封裝器用選取的特徵子集對樣本集進行分類,分類的精度做爲衡量特徵子集好壞的標準,通過比較選出最好的特徵子集

  • 產生特徵子集

    1. Classifier error rate(錯誤分類率):使用特定的分類器,用給定的特徵子集對樣本集進行分類,用分類的精度來衡量特徵子集的好壞

    2. Forward Search(前向搜索):初始時假設已選特徵的集合爲空集,算法採起貪心的方式逐步擴充該集合,直到該集合的特徵數達到一個閾值,該閾值可預先設定,也可經過交叉驗證獲取

    3. Backward Search(後向搜索):初始時假設預選特徵集合F爲特徵的全集,算法每次刪掉一個特徵,直到F的特徵數達到指定的閾值或者F被刪空,該算法在選擇刪除哪個特徵時和Forward Search在選擇一個特徵加入F時的作法一致

  • 評價方法:根據產生的子集,使用交叉驗證進行試驗

  • 優勢:考慮到特徵與特徵間的關聯

  • 缺點:1. 觀測數據較少時容易過擬合;2. 特徵數較多時計算時間較長

Embeded(集成方法)

  • 思路:學習器自身自動選擇特徵

  • 方法:

    1. Regularization正則化:L一、L2

    2. 決策樹算法(ID三、C4.五、CART):決策樹在樹增加過程的每一個遞歸步都必須選擇一個特徵,將樣本劃分紅較小的子集,選擇特徵的依據一般是劃分後子節點的純度,劃分後子節點越純,則說明劃分效果越好,決策樹生成的過程也是特徵選擇的過程

    3. 深度學習

  • 優勢:結合了前面兩種方法的優勢

  • 缺點:必須事先知道什麼是好的選擇

特徵驗證

在驗證數據集上驗證選出來的特徵子集的有效性

相關文章
相關標籤/搜索