機器學習入門系列(2)--如何構建一個完整的機器學習項目,第六篇!html
該系列的前五篇文章:git
這也是特徵工程系列最後一篇文章,介紹特徵提取、特徵選擇、特徵構建三個工做,一般特徵工程被認爲分爲這三方面的內容,只是我將前面的數據&特徵預處理部分都加入到這個系列。程序員
實際上,特徵工程實際上是很是須要經過實踐才能更好掌握這個技能的,單純看理論,理解不夠深刻,實際應用到項目或者比賽中的時候,纔會有更深刻的理解。github
定義:從給定的特徵集合中選出相關特徵子集的過程稱爲特徵選擇(feature selection)。算法
1.對於一個學習任務,給定了屬性集,其中某些屬性可能對於學習來講很關鍵,但有些屬性意義就不大。微信
2.特徵選擇可能會下降模型的預測能力,由於被剔除的特徵中可能包含了有效的信息,拋棄這部分信息必定程度上會下降模型的性能。但這也是計算複雜度和模型性能之間的取捨:網絡
3.常見的特徵選擇分爲三類方法:數據結構
1.採用特徵選擇的緣由:app
2.特徵選擇最重要的是確保不丟失重要的特徵,不然就會由於缺乏重要的信息而沒法獲得一個性能很好的模型。框架
3.在沒有任何先驗知識,即領域知識的前提下,要想從初始特徵集合中選擇一個包含全部重要信息的特徵子集,惟一作法就是遍歷全部可能的特徵組合。
但這種作法並不實際,也不可行,由於會遭遇組合爆炸,特徵數量稍多就沒法進行。
一個可選的方案是:
這裏有兩個問題:如何根據評價結果獲取下一個候選特徵子集?如何評價候選特徵子集的好壞?
1.子集搜索方法步驟以下:
給定特徵集合 A={A1,A2,...,Ad} ,首先將每一個特徵看做一個候選子集(即每一個子集中只有一個元素),而後對這 d 個候選子集進行評價。
假設 A2 最優,因而將 A2 做爲第一輪的選定子集。
而後在上一輪的選定子集中加入一個特徵,構成了包含兩個特徵的候選子集。
假定 A2,A5 最優,且優於 A2 ,因而將 A2,A5 做爲第二輪的選定子集。
....
假定在第 k+1
輪時,本輪的最優的特徵子集不如上一輪的最優的特徵子集,則中止生成候選子集,並將上一輪選定的特徵子集做爲特徵選擇的結果。
2.這種逐漸增長相關特徵的策略稱做前向 forward
搜索
相似地,若是從完整的特徵集合開始,每次嘗試去掉一個無關特徵,這種逐漸減少特徵的策略稱做後向backward
搜索
3.也能夠將前向和後向搜索結合起來,每一輪逐漸增長選定的相關特徵(這些特徵在後續迭代中肯定不會被去除),同時減小無關特徵,這樣的策略被稱做是雙向bidirectional
搜索。
4該策略是貪心的,由於它們僅僅考慮了使本輪選定集最優。可是除非進行窮舉搜索,不然這樣的問題沒法避免。
1.子集評價的作法以下:
給定數據集 D,假設全部屬性均爲離散型。對屬性子集 A,假定根據其取值將 D 分紅了 V 個子集:
能夠計算屬性子集 A 的信息增益:
其中,表示集合大小,表示熵。
信息增益越大,代表特徵子集 A 包含的有助於分類的信息越多。因此對於每一個候選特徵子集,能夠基於訓練集 D 來計算其信息增益做爲評價準則。
2.更通常地,特徵子集 A 實際上肯定了對數據集 D 的一個劃分規則。
3.將特徵子集搜索機制與子集評價機制結合就能獲得特徵選擇方法。
4.常見的特徵選擇方法分爲如下三種,主要區別在於特徵選擇部分是否使用後續的學習器。
5.最簡單的特徵選擇方法是:去掉取值變化小的特徵。
假如某特徵只有 0 和 1 的兩種取值,而且全部輸入樣本中,95% 的樣本的該特徵取值都是 1 ,那就能夠認爲該特徵做用不大。
固然,該方法的一個前提是,特徵值都是離散型才使用該方法;若是是連續型,須要離散化後再使用,而且實際上通常不會出現 95% 以上都取某個值的特徵的存在。
因此,這個方法簡單,但不太好用,能夠做爲特徵選擇的一個預處理,先去掉變化小的特徵,而後再開始選擇上述三種類型的特徵選擇方法。
該方法先對數據集進行特徵選擇,而後再訓練學習器。特徵選擇過程與後續學習器無關。
也就是先採用特徵選擇對初始特徵進行過濾,而後用過濾後的特徵訓練模型。
1.Relief:Relevant Features
是一種著名的過濾式特徵選擇方法。該方法設計了一個相關統計量來度量特徵的重要性。
該統計量是一個向量,其中每一個份量都對應於一個初始特徵。特徵子集的重要性則是由該子集中每一個特徵所對應的相關統計量份量之和來決定的。
最終只須要指定一個閾值 k,而後選擇比 k 大的相關統計量份量所對應的特徵便可。
也能夠指定特徵個數 m ,而後選擇相關統計量份量最大的 m 個特徵。
2.Relief
是爲二分類問題設計的,其拓展變體 Relief-F
能夠處理多分類問題。
使用方差選擇法,先要計算各個特徵的方差,而後根據閾值,選擇方差大於閾值的特徵。
使用相關係數法,先要計算各個特徵對目標值的相關係數以及相關係數的 P 值。
經典的卡方檢驗是檢驗定性自變量對定性因變量的相關性。假設自變量有N種取值,因變量有M種取值,考慮自變量等於 i 且因變量等於 j 的樣本頻數的觀察值與指望的差距,構建統計量:
不難發現,這個統計量的含義簡而言之就是自變量對因變量的相關性。
經典的互信息也是評價定性自變量對定性因變量的相關性的,互信息計算公式以下:
爲了處理定量數據,最大信息係數法被提出。
1.相比於過濾式特徵選擇不考慮後續學習器,包裹式特徵選擇直接把最終將要使用的學習器的性能做爲特徵子集的評價原則。其目的就是爲給定學習器選擇最有利於其性能、量身定作的特徵子集。
2.LVW:Las Vegas Wrapper
是一個典型的包裹式特徵選擇方法。它是Las Vegas method
框架下使用隨機策略來進行子集搜索,並以最終分類器的偏差做爲特徵子集的評價標準。
3.因爲 LVW
算法中每次特徵子集評價都須要訓練學習器,計算開銷很大,所以它會設計一箇中止條件控制參數 T。
可是若是初始特徵數量不少、T 設置較大、以及每一輪訓練的時間較長, 則極可能算法運行很長時間都不會中止。即:若是有運行時間限制,則有可能給不出解。
5.遞歸特徵消除法:使用一個基模型來進行多輪訓練,每輪訓練後,消除若干權值係數的特徵,再基於新的特徵集進行下一輪訓練。
1.在過濾式和包裹式特徵選擇方法中,特徵選擇過程與學習器訓練過程有明顯的分別。
嵌入式特徵選擇是將特徵選擇與學習器訓練過程融爲一體,二者在同一個優化過程當中完成的。即學習器訓練過程當中自動進行了特徵選擇。
經常使用的方法包括:
L_1, L_2
範數,主要應用於如線性迴歸、邏輯迴歸以及支持向量機(SVM)等算法;2.引入 L_1
範數除了下降過擬合風險以外,還有一個好處:它求得的 w 會有較多的份量爲零。即:它更容易得到稀疏解。
因而基於 L_1
正則化的學習方法就是一種嵌入式特徵選擇方法,其特徵選擇過程與學習器訓練過程融爲一體,兩者同時完成。
3.常見的嵌入式選擇模型:
Lasso
中,λ 參數控制了稀疏性:
SVM
和 邏輯迴歸中,參數 C
控制了稀疏性:
C
越小,則稀疏性越大,被選擇的特徵越少;C
越大, 則稀疏性越小,被選擇的特徵越多。特徵提取通常是在特徵選擇以前,它提取的對象是原始數據,目的就是自動地構建新的特徵,將原始數據轉換爲一組具備明顯物理意義(好比 Gabor、幾何特徵、紋理特徵)或者統計意義的特徵。
通常經常使用的方法包括降維(PCA、ICA、LDA等)、圖像方面的SIFT、Gabor、HOG等、文本方面的詞袋模型、詞嵌入模型等,這裏簡單介紹這幾種方法的一些基本概念。
1.PCA(Principal Component Analysis,主成分分析)
PCA 是降維最經典的方法,它旨在是找到數據中的主成分,並利用這些主成分來表徵原始數據,從而達到降維的目的。
PCA 的思想是經過座標軸轉換,尋找數據分佈的最優子空間。
好比,在三維空間中有一系列數據點,它們分佈在過原點的平面上,若是採用天然座標系的 x,y,z 三個軸表示數據,須要三個維度,但實際上這些數據點都在同一個二維平面上,若是咱們能夠經過座標軸轉換使得數據所在平面和 x,y 平面重合,咱們就能夠經過新的 x'、y' 軸來表示原始數據,而且沒有任何損失,這就完成了降維的目的,並且這兩個新的軸就是咱們須要找的主成分。
所以,PCA 的解法通常分爲如下幾個步驟:
W1, W2, ..., Wn
,這樣將原來 m 維的樣本下降到 n 維。經過 PCA ,就能夠將方差較小的特徵給拋棄,這裏,特徵向量能夠理解爲座標轉換中新座標軸的方向,特徵值表示在對應特徵向量上的方差,特徵值越大,方差越大,信息量也就越大。這也是爲何選擇前 n 個最大的特徵值對應的特徵向量,由於這些特徵包含更多重要的信息。
PCA 是一種線性降維方法,這也是它的一個侷限性。不過也有不少解決方法,好比採用核映射對 PCA 進行拓展獲得核主成分分析(KPCA),或者是採用流形映射的降維方法,好比等距映射、局部線性嵌入、拉普拉斯特徵映射等,對一些 PCA 效果很差的複雜數據集進行非線性降維操做。
2.LDA(Linear Discriminant Analysis,線性判別分析)
LDA 是一種有監督學習算法,相比較 PCA,它考慮到數據的類別信息,而 PCA 沒有考慮,只是將數據映射到方差比較大的方向上而已。
由於考慮數據類別信息,因此 LDA 的目的不只僅是降維,還須要找到一個投影方向,使得投影后的樣本儘量按照原始類別分開,即尋找一個能夠最大化類間距離以及最小化類內距離的方向。
LDA 的優勢以下:
相應的,也有以下缺點:
3.ICA(Independent Component Analysis,獨立成分分析)
PCA特徵轉換降維,提取的是不相關的部分,ICA獨立成分分析,得到的是相互獨立的屬性。ICA算法本質尋找一個線性變換 z = Wx
,使得 z 的各個特徵份量之間的獨立性最大。
一般先採用 PCA 對數據進行降維,而後再用 ICA 來從多個維度分離出有用數據。PCA 是 ICA 的數據預處理方法。
具體能夠查看知乎上的這個問題和回答獨立成分分析 ( ICA ) 與主成分分析 ( PCA ) 的區別在哪裏?。
圖像的特徵提取,在深度學習火起來以前,是有不少傳統的特徵提取方法,比較常見的包括如下幾種。
1.SIFT 特徵
SIFT 是圖像特徵提取中很是普遍應用的特徵。它包含如下幾種優勢:
SIFT 對圖像局部特徵點的提取主要包括四個步驟:
SIFT 的缺點是不借助硬件加速或者專門的圖像處理器很難實現。
2.SURF 特徵
SURF 特徵是對 SIFT 算法的改進,下降了時間複雜度,而且提升了魯棒性。
它主要是簡化了 SIFT 的一些運算,如將 SIFT 中的高斯二階微分的模型進行了簡化,使得卷積平滑操做僅須要轉換成加減運算。而且最終生成的特徵向量維度從 128 維減小爲 64 維。
3.HOG 特徵
方向梯度直方圖(HOG)特徵是 2005 年針對行人檢測問題提出的直方圖特徵,它經過計算和統計圖像局部區域的梯度方向直方圖來實現特徵描述。
HOG 特徵提取步驟以下:
4.LBP 特徵
局部二值模式(LBP)是一種描述圖像局部紋理的特徵算子,它具備旋轉不變性和灰度不變性的優勢。
LBP 特徵描述的是一種灰度範圍內的圖像處理操做技術,針對的是輸入爲 8 位或者 16 位的灰度圖像。
LBP 特徵經過對窗口中心點與鄰域點的關係進行比較,從新編碼造成新特徵以消除對外界場景對圖像的影響,所以必定程度上解決了複雜場景下(光照變換)特徵描述問題。
根據窗口領域的不一樣分爲兩種,經典 LBP 和圓形 LBP。前者的窗口是 3×3 的正方形窗口,後者將窗口從正方形拓展爲任意圓形領域。
更詳細的能夠參考這篇文章--圖像特徵檢測描述(一):SIFT、SURF、ORB、HOG、LBP特徵的原理概述及OpenCV代碼實現
固然上述特徵都是比較傳統的圖像特徵提取方法了,如今圖像基本都直接利用 CNN(卷積神經網絡)來進行特徵提取以及分類。
1.詞袋模型
最基礎的文本表示模型是詞袋模型。
具體地說,就是將整段文本以詞爲單位切分開,而後每篇文章能夠表示成一個長向量,向量的每個維度表明一個單詞,而該維度的權重反映了該單詞在原來文章中的重要程度。
一般採用 TF-IDF 計算權重,公式爲 TF-IDF(t, d) = TF(t,d) × IDF(t)
其中 TF(t, d) 表示單詞 t 在文檔 d 中出現的頻率,IDF(t) 是逆文檔頻率,用來衡量單詞 t 對錶達語義所起的重要性,其表示爲:
直觀的解釋就是,若是這個單詞在多篇文章都出現過,那麼它極可能是比較通用的詞彙,對於區分文章的貢獻比較小,天然其權重也就比較小,即 IDF(t) 會比較小。
2.N-gram 模型
詞袋模型是以單詞爲單位進行劃分,但有時候進行單詞級別劃分並非很好的作法,畢竟有的單詞組合起來纔是其要表達的含義,好比說 natural language processing(天然語言處理)
、computer vision(計算機視覺)
等。
所以能夠將連續出現的 n 個詞 (n <= N) 組成的詞組(N-gram)做爲一個單獨的特徵放到向量表示中,構成了 N-gram 模型。
另外,同一個詞可能會有多種詞性變化,但卻具備相同含義,因此實際應用中還會對單詞進行詞幹抽取(Word Stemming)處理,即將不一樣詞性的單詞統一爲同一詞幹的形式。
3.詞嵌入模型
詞嵌入是一類將詞向量化的模型的統稱,核心思想是將每一個詞都映射成低維空間(一般 K=50~300 維)上的一個稠密向量(Dense Vector)。
經常使用的詞嵌入模型是 Word2Vec。它是一種底層的神經網絡模型,有兩種網絡結構,分別是 CBOW(Continues Bag of Words) 和 Skip-gram。
CBOW 是根據上下文出現的詞語預測當前詞的生成機率;Skip-gram 是根據當前詞來預測上下文中各個詞的生成機率。
詞嵌入模型是將每一個詞都映射成一個 K 維的向量,若是一篇文檔有 N 個單詞,那麼每篇文檔就能夠用一個 N×K 的矩陣進行表示,但這種表示過於底層。實際應用中,若是直接將該矩陣做爲原文本的特徵表示輸入到模型中訓練,一般很可貴到滿意的結果,通常還須要對該矩陣進行處理,提取和構造更高層的特徵。
深度學習模型的出現正好提供了一種自動進行特徵工程的方法,它的每一個隱含層都至關於不一樣抽象層次的特徵。卷積神經網絡(CNN)和循環神經網絡(RNN)在文本表示中都取得了很好的效果,這是由於它們能夠很好地對文本進行建模,抽取出一些高層的語義特徵。
特徵提取與特徵選擇都是爲了從原始特徵中找出最有效的特徵。
它們之間的區別是特徵提取強調經過特徵轉換的方式獲得一組具備明顯物理或統計意義的特徵;
而特徵選擇是從特徵集合中挑選一組具備明顯物理或統計意義的特徵子集。
二者都能幫助減小特徵的維度、數據冗餘,特徵提取有時能發現更有意義的特徵屬性,特徵選擇的過程常常能表示出每一個特徵的重要性對於模型構建的重要性。
特徵構建是指從原始數據中人工的構建新的特徵。須要花時間去觀察原始數據,思考問題的潛在形式和數據結構,對數據敏感性和機器學習實戰經驗能幫助特徵構建。
特徵構建須要很強的洞察力和分析能力,要求咱們可以從原始數據中找出一些具備物理意義的特徵。假設原始數據是表格數據,通常你可使用混合屬性或者組合屬性來建立新的特徵,或是分解或切分原有的特徵來建立新的特徵。
特徵構建很是須要相關的領域知識或者豐富的實踐經驗才能很好構建出更好的有用的新特徵,相比於特徵提取,特徵提取是經過一些現成的特徵提取方法來將原始數據進行特徵轉換,而特徵構建就須要咱們本身人爲的手工構建特徵,好比組合兩個特徵,或者分解一個特徵爲多個新的特徵。
特徵工程這個內容加上本文總共寫了四篇文章,從數據預處理,處理缺失值、異常值,類別不平衡和數據擴充問題,到特徵縮放、特徵編碼,以及本文的特徵選擇、特徵提取和特徵構造,基本包含了特徵工程涉及的內容,固然可能還有少數內容沒有包含。
其實是恰好對於《》第二章的總結,涉及到特徵工程內容,打算好好作個總結,沒想到這部份內容真的很多,而對於特徵工程,個人經驗其實不算很豐富,以前只是參加過一次比賽,算是簡單涉獵了其中的部份內容,因此這幾篇文章的內容主要都是整理收集網上文章的內容,加上少部分我的的經驗心得,寫做起來確實有些費勁,不少內容都只能簡單總結下基本概念和使用步驟,但很難再深刻介紹了。
因此推薦你們看完後,能夠找些實際的項目或者參加比賽,在實踐中運用特徵工程的理論和方法,會有更深的體會。
比賽的話,最有名的就是 Kaggle,國內的有天池、DataFountain等。
接下來會這個如何構建一個完整的機器學習項目就會進入算法模型選擇和評估部分了,這裏我也打算先簡單總結機器學習比較經常使用的經典算法。
參考:
歡迎關注個人微信公衆號--機器學習與計算機視覺,或者掃描下方的二維碼,你們一塊兒交流,學習和進步!