特徵工程(完）

時間 2019-11-08

標籤特徵工程简体版

原文原文鏈接

機器學習入門系列（2）--如何構建一個完整的機器學習項目，第六篇！html

該系列的前五篇文章：git

這也是特徵工程系列最後一篇文章，介紹特徵提取、特徵選擇、特徵構建三個工做，一般特徵工程被認爲分爲這三方面的內容，只是我將前面的數據&特徵預處理部分都加入到這個系列。程序員

實際上，特徵工程實際上是很是須要經過實踐才能更好掌握這個技能的，單純看理論，理解不夠深刻，實際應用到項目或者比賽中的時候，纔會有更深刻的理解。github

3.4 特徵選擇

定義：從給定的特徵集合中選出相關特徵子集的過程稱爲特徵選擇(feature selection)。算法

1.對於一個學習任務，給定了屬性集，其中某些屬性可能對於學習來講很關鍵，但有些屬性意義就不大。微信

對當前學習任務有用的屬性或者特徵，稱爲相關特徵(relevant feature)；
對當前學習任務沒用的屬性或者特徵，稱爲無關特徵(irrelevant feature)。

2.特徵選擇可能會下降模型的預測能力，由於被剔除的特徵中可能包含了有效的信息，拋棄這部分信息必定程度上會下降模型的性能。但這也是計算複雜度和模型性能之間的取捨：網絡

若是保留儘量多的特徵，模型的性能會提高，但同時模型就變複雜，計算複雜度也一樣提高；
若是剔除儘量多的特徵，模型的性能會有所降低，但模型就變簡單，也就下降計算複雜度。

3.常見的特徵選擇分爲三類方法：數據結構

過濾式(filter)
包裹式(wrapper)
嵌入式(embedding)

3.4.1 特徵選擇原理

1.採用特徵選擇的緣由：app

維數災難問題。由於屬性或者特徵過多形成的問題，若是能夠選擇重要的特徵，使得僅須要一部分特徵就能夠構建模型，能夠大大減輕維數災難問題，從這個意義上講，特徵選擇和降維技術有類似的動機，事實上它們也是處理高維數據的兩大主流技術。
去除無關特徵能夠下降學習任務的難度，也一樣讓模型變得簡單，下降計算複雜度。

2.特徵選擇最重要的是確保不丟失重要的特徵，不然就會由於缺乏重要的信息而沒法獲得一個性能很好的模型。框架

給定數據集，學習任務不一樣，相關的特徵極可能也不相同，所以特徵選擇中的不相關特徵指的是與當前學習任務無關的特徵。
有一類特徵稱做冗餘特徵(redundant feature)，它們所包含的信息能夠從其餘特徵中推演出來。
- 冗餘特徵一般都不起做用，去除它們能夠減輕模型訓練的負擔；
- 但若是冗餘特徵剛好對應了完成學習任務所須要的某個中間概念，則它是有益的，能夠下降學習任務的難度。

3.在沒有任何先驗知識，即領域知識的前提下，要想從初始特徵集合中選擇一個包含全部重要信息的特徵子集，惟一作法就是遍歷全部可能的特徵組合。

但這種作法並不實際，也不可行，由於會遭遇組合爆炸，特徵數量稍多就沒法進行。

一個可選的方案是：

產生一個候選子集，評價出它的好壞。
基於評價結果產生下一個候選子集，再評價其好壞。
這個過程持續進行下去，直至沒法找到更好的後續子集爲止。

這裏有兩個問題：如何根據評價結果獲取下一個候選特徵子集？如何評價候選特徵子集的好壞？

3.4.1.1 子集搜索

1.子集搜索方法步驟以下：

給定特徵集合 A={A1,A2,...,Ad} ，首先將每一個特徵看做一個候選子集（即每一個子集中只有一個元素），而後對這 d 個候選子集進行評價。

假設 A2 最優，因而將 A2 做爲第一輪的選定子集。
而後在上一輪的選定子集中加入一個特徵，構成了包含兩個特徵的候選子集。

假定 A2,A5 最優，且優於 A2 ，因而將 A2,A5 做爲第二輪的選定子集。
....
假定在第 k+1 輪時，本輪的最優的特徵子集不如上一輪的最優的特徵子集，則中止生成候選子集，並將上一輪選定的特徵子集做爲特徵選擇的結果。

2.這種逐漸增長相關特徵的策略稱做前向 forward搜索

相似地，若是從完整的特徵集合開始，每次嘗試去掉一個無關特徵，這種逐漸減少特徵的策略稱做後向backward搜索

3.也能夠將前向和後向搜索結合起來，每一輪逐漸增長選定的相關特徵（這些特徵在後續迭代中肯定不會被去除），同時減小無關特徵，這樣的策略被稱做是雙向bidirectional搜索。

4該策略是貪心的，由於它們僅僅考慮了使本輪選定集最優。可是除非進行窮舉搜索，不然這樣的問題沒法避免。

3.4.1.2 子集評價

1.子集評價的作法以下：

給定數據集 D，假設全部屬性均爲離散型。對屬性子集 A，假定根據其取值將 D 分紅了 V 個子集： ${D_1, D_2, \cdots, D_V}$

能夠計算屬性子集 A 的信息增益：

g(D, A) = H(D) - H(D|A)=H(D)-\sum^V_{v=1}\frac{|D_v|}{|D|}H(D_v)

其中，表示集合大小，表示熵。

信息增益越大，代表特徵子集 A 包含的有助於分類的信息越多。因此對於每一個候選特徵子集，能夠基於訓練集 D 來計算其信息增益做爲評價準則。

2.更通常地，特徵子集 A 實際上肯定了對數據集 D 的一個劃分規則。

每一個劃分區域對應着 A 上的一個取值，而樣本標記信息 y 則對應着 D 的真實劃分。
經過估算這兩種劃分之間的差別，就能對 A 進行評價：與 y 對應的劃分的差別越小，則說明 A 越好。
信息熵僅僅是判斷這個差別的一種方法，其餘能判斷這兩個劃分差別的機制都可以用於特徵子集的評價。

3.將特徵子集搜索機制與子集評價機制結合就能獲得特徵選擇方法。

事實上，決策樹能夠用於特徵選擇，全部樹結點的劃分屬性所組成的集合就是選擇出來的特徵子集。
其餘特徵選擇方法本質上都是顯式或者隱式地結合了某些子集搜索機制和子集評價機制。

4.常見的特徵選擇方法分爲如下三種，主要區別在於特徵選擇部分是否使用後續的學習器。

過濾式(filter)：先對數據集進行特徵選擇，其過程與後續學習器無關，即設計一些統計量來過濾特徵，並不考慮後續學習器問題
包裹式(wrapper)：實際上就是一個分類器，它是將後續的學習器的性能做爲特徵子集的評價標準。
嵌入式(embedding)：其實是學習器自主選擇特徵。

5.最簡單的特徵選擇方法是：去掉取值變化小的特徵。

假如某特徵只有 0 和 1 的兩種取值，而且全部輸入樣本中，95% 的樣本的該特徵取值都是 1 ，那就能夠認爲該特徵做用不大。

固然，該方法的一個前提是，特徵值都是離散型才使用該方法；若是是連續型，須要離散化後再使用，而且實際上通常不會出現 95% 以上都取某個值的特徵的存在。

因此，這個方法簡單，但不太好用，能夠做爲特徵選擇的一個預處理，先去掉變化小的特徵，而後再開始選擇上述三種類型的特徵選擇方法。

3.4.2 過濾式選擇

該方法先對數據集進行特徵選擇，而後再訓練學習器。特徵選擇過程與後續學習器無關。

也就是先採用特徵選擇對初始特徵進行過濾，而後用過濾後的特徵訓練模型。

優勢是計算時間上比較高效，並且對過擬合問題有較高的魯棒性；
缺點是傾向於選擇冗餘特徵，即沒有考慮到特徵之間的相關性。

3.4.2.1 Relief 方法

1.Relief:Relevant Features是一種著名的過濾式特徵選擇方法。該方法設計了一個相關統計量來度量特徵的重要性。

該統計量是一個向量，其中每一個份量都對應於一個初始特徵。特徵子集的重要性則是由該子集中每一個特徵所對應的相關統計量份量之和來決定的。
最終只須要指定一個閾值 k，而後選擇比 k 大的相關統計量份量所對應的特徵便可。

也能夠指定特徵個數 m ，而後選擇相關統計量份量最大的 m 個特徵。

2.Relief 是爲二分類問題設計的，其拓展變體 Relief-F 能夠處理多分類問題。

3.4.2.2 方差選擇法

使用方差選擇法，先要計算各個特徵的方差，而後根據閾值，選擇方差大於閾值的特徵。

3.4.2.3 相關係數法

使用相關係數法，先要計算各個特徵對目標值的相關係數以及相關係數的 P 值。

3.4.2.4 卡方檢驗

經典的卡方檢驗是檢驗定性自變量對定性因變量的相關性。假設自變量有N種取值，因變量有M種取值，考慮自變量等於 i 且因變量等於 j 的樣本頻數的觀察值與指望的差距，構建統計量：

不難發現，這個統計量的含義簡而言之就是自變量對因變量的相關性。

3.4.2.5 互信息法

經典的互信息也是評價定性自變量對定性因變量的相關性的，互信息計算公式以下：

I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}

爲了處理定量數據，最大信息係數法被提出。

3.4.3 包裹式選擇

1.相比於過濾式特徵選擇不考慮後續學習器，包裹式特徵選擇直接把最終將要使用的學習器的性能做爲特徵子集的評價原則。其目的就是爲給定學習器選擇最有利於其性能、量身定作的特徵子集。

優勢是直接針對特定學習器進行優化，考慮到特徵之間的關聯性，所以一般包裹式特徵選擇比過濾式特徵選擇能訓練獲得一個更好性能的學習器，
缺點是因爲特徵選擇過程須要屢次訓練學習器，故計算開銷要比過濾式特徵選擇要大得多。

2.LVW:Las Vegas Wrapper是一個典型的包裹式特徵選擇方法。它是Las Vegas method 框架下使用隨機策略來進行子集搜索，並以最終分類器的偏差做爲特徵子集的評價標準。

3.因爲 LVW 算法中每次特徵子集評價都須要訓練學習器，計算開銷很大，所以它會設計一箇中止條件控制參數 T。

可是若是初始特徵數量不少、T 設置較大、以及每一輪訓練的時間較長，則極可能算法運行很長時間都不會中止。即：若是有運行時間限制，則有可能給不出解。

5.遞歸特徵消除法：使用一個基模型來進行多輪訓練，每輪訓練後，消除若干權值係數的特徵，再基於新的特徵集進行下一輪訓練。

3.4.4 嵌入式選擇

1.在過濾式和包裹式特徵選擇方法中，特徵選擇過程與學習器訓練過程有明顯的分別。

嵌入式特徵選擇是將特徵選擇與學習器訓練過程融爲一體，二者在同一個優化過程當中完成的。即學習器訓練過程當中自動進行了特徵選擇。

經常使用的方法包括：

利用正則化，如L_1, L_2 範數，主要應用於如線性迴歸、邏輯迴歸以及支持向量機(SVM)等算法；
使用決策樹思想，包括決策樹、隨機森林、Gradient Boosting 等。

2.引入 L_1 範數除了下降過擬合風險以外，還有一個好處：它求得的 w 會有較多的份量爲零。即：它更容易得到稀疏解。

因而基於 L_1 正則化的學習方法就是一種嵌入式特徵選擇方法，其特徵選擇過程與學習器訓練過程融爲一體，兩者同時完成。

3.常見的嵌入式選擇模型：

在 Lasso 中，λ 參數控制了稀疏性：
- 若是 λ 越小，則稀疏性越小，被選擇的特徵越多；
- 相反 λ 越大，則稀疏性越大，被選擇的特徵越少；
在 SVM 和邏輯迴歸中，參數 C 控制了稀疏性：
- 若是 C 越小，則稀疏性越大，被選擇的特徵越少；
- 若是 C 越大，則稀疏性越小，被選擇的特徵越多。

3.5 特徵提取

特徵提取通常是在特徵選擇以前，它提取的對象是原始數據，目的就是自動地構建新的特徵，將原始數據轉換爲一組具備明顯物理意義（好比 Gabor、幾何特徵、紋理特徵）或者統計意義的特徵。

通常經常使用的方法包括降維（PCA、ICA、LDA等）、圖像方面的SIFT、Gabor、HOG等、文本方面的詞袋模型、詞嵌入模型等，這裏簡單介紹這幾種方法的一些基本概念。

3.5.1 降維

1.PCA(Principal Component Analysis，主成分分析)

PCA 是降維最經典的方法，它旨在是找到數據中的主成分，並利用這些主成分來表徵原始數據，從而達到降維的目的。

PCA 的思想是經過座標軸轉換，尋找數據分佈的最優子空間。

好比，在三維空間中有一系列數據點，它們分佈在過原點的平面上，若是採用天然座標系的 x，y，z 三個軸表示數據，須要三個維度，但實際上這些數據點都在同一個二維平面上，若是咱們能夠經過座標軸轉換使得數據所在平面和 x，y 平面重合，咱們就能夠經過新的 x'、y' 軸來表示原始數據，而且沒有任何損失，這就完成了降維的目的，並且這兩個新的軸就是咱們須要找的主成分。

所以，PCA 的解法通常分爲如下幾個步驟：

對樣本數據進行中心化處理；
求樣本協方差矩陣；
對協方差矩陣進行特徵值分解，將特徵值從大到小排列；
取特徵值前 n 個最大的對應的特徵向量 W1, W2, ..., Wn ，這樣將原來 m 維的樣本下降到 n 維。

經過 PCA ，就能夠將方差較小的特徵給拋棄，這裏，特徵向量能夠理解爲座標轉換中新座標軸的方向，特徵值表示在對應特徵向量上的方差，特徵值越大，方差越大，信息量也就越大。這也是爲何選擇前 n 個最大的特徵值對應的特徵向量，由於這些特徵包含更多重要的信息。

PCA 是一種線性降維方法，這也是它的一個侷限性。不過也有不少解決方法，好比採用核映射對 PCA 進行拓展獲得核主成分分析(KPCA)，或者是採用流形映射的降維方法，好比等距映射、局部線性嵌入、拉普拉斯特徵映射等，對一些 PCA 效果很差的複雜數據集進行非線性降維操做。

2.LDA(Linear Discriminant Analysis，線性判別分析)

LDA 是一種有監督學習算法，相比較 PCA，它考慮到數據的類別信息，而 PCA 沒有考慮，只是將數據映射到方差比較大的方向上而已。

由於考慮數據類別信息，因此 LDA 的目的不只僅是降維，還須要找到一個投影方向，使得投影后的樣本儘量按照原始類別分開，即尋找一個能夠最大化類間距離以及最小化類內距離的方向。

LDA 的優勢以下：

相比較 PCA，LDA 更加擅長處理帶有類別信息的數據；
線性模型對噪聲的魯棒性比較好，LDA 是一種有效的降維方法。

相應的，也有以下缺點：

LDA 對數據的分佈作出了很強的假設，好比每一個類別數據都是高斯分佈、各個類的協方差相等。這些假設在實際中不必定徹底知足。
LDA 模型簡單，表達能力有必定侷限性。但這能夠經過引入核函數拓展 LDA 來處理分佈比較複雜的數據。

3.ICA(Independent Component Analysis，獨立成分分析)

PCA特徵轉換降維，提取的是不相關的部分，ICA獨立成分分析，得到的是相互獨立的屬性。ICA算法本質尋找一個線性變換 z = Wx，使得 z 的各個特徵份量之間的獨立性最大。

一般先採用 PCA 對數據進行降維，而後再用 ICA 來從多個維度分離出有用數據。PCA 是 ICA 的數據預處理方法。

具體能夠查看知乎上的這個問題和回答獨立成分分析 ( ICA ) 與主成分分析 ( PCA ) 的區別在哪裏？。

3.5.2 圖像特徵提取

圖像的特徵提取，在深度學習火起來以前，是有不少傳統的特徵提取方法，比較常見的包括如下幾種。

1.SIFT 特徵

SIFT 是圖像特徵提取中很是普遍應用的特徵。它包含如下幾種優勢：

具備旋轉、尺度、平移、視角及亮度不變性，有利於對目標特徵信息進行有效表達；
SIFT 特徵對參數調整魯棒性好，能夠根據場景須要調整適宜的特徵點數量進行特徵描述，以便進行特徵分析。

SIFT 對圖像局部特徵點的提取主要包括四個步驟：

疑似特徵點檢測
去除僞特徵點
特徵點梯度與方向匹配
特徵描述向量的生成

SIFT 的缺點是不借助硬件加速或者專門的圖像處理器很難實現。

2.SURF 特徵

SURF 特徵是對 SIFT 算法的改進，下降了時間複雜度，而且提升了魯棒性。

它主要是簡化了 SIFT 的一些運算，如將 SIFT 中的高斯二階微分的模型進行了簡化，使得卷積平滑操做僅須要轉換成加減運算。而且最終生成的特徵向量維度從 128 維減小爲 64 維。

3.HOG 特徵

方向梯度直方圖(HOG)特徵是 2005 年針對行人檢測問題提出的直方圖特徵，它經過計算和統計圖像局部區域的梯度方向直方圖來實現特徵描述。

HOG 特徵提取步驟以下：

歸一化處理。先將圖像轉爲灰度圖像，再利用伽馬校訂實現。這一步驟是爲了提升圖像特徵描述對光照及環境變化的魯棒性，下降圖像局部的陰影、局部曝光過多和紋理失真，儘量抵制噪聲干擾；
計算圖像梯度；
統計梯度方向；
特徵向量歸一化；爲克服光照不均勻變化及前景與背景的對比差別，須要對塊內的特徵向量進行歸一化處理。
生成特徵向量。

4.LBP 特徵

局部二值模式（LBP）是一種描述圖像局部紋理的特徵算子，它具備旋轉不變性和灰度不變性的優勢。

LBP 特徵描述的是一種灰度範圍內的圖像處理操做技術，針對的是輸入爲 8 位或者 16 位的灰度圖像。

LBP 特徵經過對窗口中心點與鄰域點的關係進行比較，從新編碼造成新特徵以消除對外界場景對圖像的影響，所以必定程度上解決了複雜場景下（光照變換）特徵描述問題。

根據窗口領域的不一樣分爲兩種，經典 LBP 和圓形 LBP。前者的窗口是 3×3 的正方形窗口，後者將窗口從正方形拓展爲任意圓形領域。

更詳細的能夠參考這篇文章--圖像特徵檢測描述(一):SIFT、SURF、ORB、HOG、LBP特徵的原理概述及OpenCV代碼實現

固然上述特徵都是比較傳統的圖像特徵提取方法了，如今圖像基本都直接利用 CNN（卷積神經網絡）來進行特徵提取以及分類。

3.5.3 文本特徵提取

1.詞袋模型

最基礎的文本表示模型是詞袋模型。

具體地說，就是將整段文本以詞爲單位切分開，而後每篇文章能夠表示成一個長向量，向量的每個維度表明一個單詞，而該維度的權重反映了該單詞在原來文章中的重要程度。

一般採用 TF-IDF 計算權重，公式爲 TF-IDF(t, d) = TF(t,d) × IDF(t)

其中 TF(t, d) 表示單詞 t 在文檔 d 中出現的頻率，IDF(t) 是逆文檔頻率，用來衡量單詞 t 對錶達語義所起的重要性，其表示爲：

直觀的解釋就是，若是這個單詞在多篇文章都出現過，那麼它極可能是比較通用的詞彙，對於區分文章的貢獻比較小，天然其權重也就比較小，即 IDF(t) 會比較小。

2.N-gram 模型

詞袋模型是以單詞爲單位進行劃分，但有時候進行單詞級別劃分並非很好的作法，畢竟有的單詞組合起來纔是其要表達的含義，好比說 natural language processing(天然語言處理)、computer vision(計算機視覺) 等。

所以能夠將連續出現的 n 個詞 (n <= N) 組成的詞組(N-gram)做爲一個單獨的特徵放到向量表示中，構成了 N-gram 模型。

另外，同一個詞可能會有多種詞性變化，但卻具備相同含義，因此實際應用中還會對單詞進行詞幹抽取(Word Stemming)處理，即將不一樣詞性的單詞統一爲同一詞幹的形式。

3.詞嵌入模型

詞嵌入是一類將詞向量化的模型的統稱，核心思想是將每一個詞都映射成低維空間（一般 K=50~300 維）上的一個稠密向量（Dense Vector）。

經常使用的詞嵌入模型是 Word2Vec。它是一種底層的神經網絡模型，有兩種網絡結構，分別是 CBOW(Continues Bag of Words) 和 Skip-gram。

CBOW 是根據上下文出現的詞語預測當前詞的生成機率；Skip-gram 是根據當前詞來預測上下文中各個詞的生成機率。

詞嵌入模型是將每一個詞都映射成一個 K 維的向量，若是一篇文檔有 N 個單詞，那麼每篇文檔就能夠用一個 N×K 的矩陣進行表示，但這種表示過於底層。實際應用中，若是直接將該矩陣做爲原文本的特徵表示輸入到模型中訓練，一般很可貴到滿意的結果，通常還須要對該矩陣進行處理，提取和構造更高層的特徵。

深度學習模型的出現正好提供了一種自動進行特徵工程的方法，它的每一個隱含層都至關於不一樣抽象層次的特徵。卷積神經網絡（CNN)和循環神經網絡（RNN)在文本表示中都取得了很好的效果，這是由於它們能夠很好地對文本進行建模，抽取出一些高層的語義特徵。

3.5.4 特徵提取和特徵選擇的區別

特徵提取與特徵選擇都是爲了從原始特徵中找出最有效的特徵。

它們之間的區別是特徵提取強調經過特徵轉換的方式獲得一組具備明顯物理或統計意義的特徵；

而特徵選擇是從特徵集合中挑選一組具備明顯物理或統計意義的特徵子集。

二者都能幫助減小特徵的維度、數據冗餘，特徵提取有時能發現更有意義的特徵屬性，特徵選擇的過程常常能表示出每一個特徵的重要性對於模型構建的重要性。

3.6 特徵構建

特徵構建是指從原始數據中人工的構建新的特徵。須要花時間去觀察原始數據，思考問題的潛在形式和數據結構，對數據敏感性和機器學習實戰經驗能幫助特徵構建。

特徵構建須要很強的洞察力和分析能力，要求咱們可以從原始數據中找出一些具備物理意義的特徵。假設原始數據是表格數據，通常你可使用混合屬性或者組合屬性來建立新的特徵，或是分解或切分原有的特徵來建立新的特徵。

特徵構建很是須要相關的領域知識或者豐富的實踐經驗才能很好構建出更好的有用的新特徵，相比於特徵提取，特徵提取是經過一些現成的特徵提取方法來將原始數據進行特徵轉換，而特徵構建就須要咱們本身人爲的手工構建特徵，好比組合兩個特徵，或者分解一個特徵爲多個新的特徵。

小結

特徵工程這個內容加上本文總共寫了四篇文章，從數據預處理，處理缺失值、異常值，類別不平衡和數據擴充問題，到特徵縮放、特徵編碼，以及本文的特徵選擇、特徵提取和特徵構造，基本包含了特徵工程涉及的內容，固然可能還有少數內容沒有包含。

其實是恰好對於《》第二章的總結，涉及到特徵工程內容，打算好好作個總結，沒想到這部份內容真的很多，而對於特徵工程，個人經驗其實不算很豐富，以前只是參加過一次比賽，算是簡單涉獵了其中的部份內容，因此這幾篇文章的內容主要都是整理收集網上文章的內容，加上少部分我的的經驗心得，寫做起來確實有些費勁，不少內容都只能簡單總結下基本概念和使用步驟，但很難再深刻介紹了。

因此推薦你們看完後，能夠找些實際的項目或者參加比賽，在實踐中運用特徵工程的理論和方法，會有更深的體會。

比賽的話，最有名的就是 Kaggle，國內的有天池、DataFountain等。

接下來會這個如何構建一個完整的機器學習項目就會進入算法模型選擇和評估部分了，這裏我也打算先簡單總結機器學習比較經常使用的經典算法。

參考：