將屬性稱之爲特徵,對當前學習任務有用的屬性稱爲「相關特徵」,沒什麼用的屬性稱爲「無關特徵」。從給定獲得特徵集合中選擇出相關特徵子集的過程,稱爲----特徵選擇。框架
爲何進行特徵選擇呢?性能
1. 在現實任務中常常會遇到維數災難問題,就是由於屬性過多形成的,若能從中選擇出重要的特徵,使得後續學習過程僅需在一部分特徵上構建模型,則維數災難問題就會大大減輕。學習
2. 去除不相關特徵每每會下降學習任務的難度,只留下關鍵因素,更容易看清。優化
常見的特徵選擇方法大體可分爲三類:過濾式、包裹式和嵌入式。spa
1. 過濾式:先對數據集進行特徵選擇,而後再訓練學習器,特徵選擇過程與後續學習器無關。這至關於先用特徵選擇過程初始特徵進行「過濾」,在用過濾後的特徵來訓練模型。(ps:這是咱們常見的方式)設計
Relisf是一種著名的過濾式特徵選擇的方法,該方法設計了一個相關統計量來度量特徵的重要性。該統計量是一個向量,其每一個份量分別對應於一個初始特徵,而特徵子集的重要性則是由子集中每一個特徵所對應的相關統計量份量之和來決定。因而,只需指定一個閾值,而後比較比該閾值大的相關統計量份量所對應的特徵便可;也可指定欲選取的特徵個數,而後選擇相關統計量份量最大的幾個特徵。學習方法
2. 包裹式選擇:與過濾式特徵選擇不考慮後續學習器不一樣,包裹式特徵選擇直接把最終將要使用的學習器的性能做爲特徵子集的評價準則。搜索
目的是爲給定學習器選擇有利於其性能、「量身定作」的特徵子集。因爲包裹式特徵選擇方法直接針對給定學習器進行優化,所以,從最終學習器性能來看,包裹式特徵選擇比過濾式選擇更好,但另外一方面,因爲在特徵選擇過程當中需屢次訓練學習器,所以包裹式特徵選擇的計算開銷一般比過濾式特徵選擇大得多。方法
LVW是一個典型的包裹式特徵選擇方法,它在拉斯維加斯方法框架下使用隨機策略來進行子集搜索,並以最終分類器的偏差爲特徵子集評價準則。統計
3. 嵌入式選擇:是將特徵選擇過程與學習器訓練過程融爲一體,二者在用一個優化過程種完成,即在學習器訓練過程當中自動地進行了特徵選擇。
基於L1正則化的學習方法就是一種嵌入式特徵選擇方法,其特徵選擇過程與學習器訓練過程融爲一體,同時完成。