一個真實數據集的完整機器學習解決方案（下）

時間 2021-01-30

標籤 html 算法數組安全微信網絡 dom 機器學習函數 post 欄目 HTML 简体版

原文原文鏈接

更多精彩內容，歡迎關注公衆號：數量技術宅。想要獲取本期分享的完整策略代碼，請加技術宅微信：sljsz01html

咱們先來回顧一下，一個真實數據集的完整機器學習解決方案（上篇）提到，一個完整的機器學習工程的實現步驟：算法

1. 數據預處理數組

2. 探索性數據特徵統計安全

3. 特徵工程與特徵選取微信

4. 創建基線網絡

5. 機器學習建模dom

6. 超參數調優機器學習

7. 測試集驗證函數

在上篇的內容中，咱們介紹了第1到第4步的原理、代碼以及實現（可視化）結果，接下來，咱們將繼續完成這個系列的文章，爲你們介紹5-7步的詳細原理、流程、代碼。post

機器學習建模

在進行正式的機器學習建模前，咱們還有兩項前置工做須要完成。首先，在數據預處理的步驟中，咱們剔除了缺失值大於必定比率的數據列，可是在剩下的數據列中，仍然存在着缺失值，對於這一小部分的缺失值，咱們將再也不丟棄相應的變量列，而是嘗試對於缺失值進行填補。

咱們讀入上一步拆分好的訓練數據集以及測試數據集

上圖中的NaN，都表明着缺失的數據，咱們採用一種簡單的填補方式，即以每列數據的中位數（Median）做爲數值，填充到NaN中。

咱們借用Scikit-Learn庫中封裝好的函數建立了一個以「中位數值替換」（median）爲填補策略的Imputer對象。而後，在訓練集使用imputer.fit函數計算，用imputer.transform函數填充全部數據（訓練集+測試集）中的缺失值。這裏須要特別注意的是，測試集中的缺失值也將被相對應訓練集中的中值所填充，只有這種填充方式，才能嚴格的避免測試數據集的數據泄露。這部分的關鍵實現代碼咱們也貼在了下圖中。

第二項前置工做是數據的歸一化，咱們知道，真實世界中不一樣的數據每每有不一樣的量綱，並且量綱之間差距也很大，若是不作歸一化，像支持向量機和K近鄰這些會考慮各項特徵之間距離的方法，會顯著地受到不一樣特徵量綱範圍不一樣的影響。儘管某些模型，好比線性迴歸、隨機森林，對特徵量綱不敏感，但考慮到模型的安全性，咱們仍是建議，全部的建模測試前，都加入這一步驟。

歸一化，具體來講，就是對特徵的每個值減去該特徵對應的最小值併除以特徵值區間（區間=最大值減最小值），咱們借用Scikit-Learn中的MinMaxScale函數實現。爲避免數據泄露，咱們一樣只使用訓練數據計算區間、最大值和最小值，而後轉換全部訓練集和測試集的數據。

在作完缺失值填補、特徵歸一化，這兩項前置工做後，接下來咱們進入挑選機器學習模型的環節。目前，機器學習的模型日趨多元化，從大量現有的模型中選擇最適用當前數據集的模型並非一件容易的事。

儘管有些「模型分析流圖」（以微軟製做圖爲例）嘗試指引你選擇哪種模型，但親自去嘗試多種算法，並根據實際的結果判斷哪一種模型效果最好，也許是更好的選擇，機器學習能夠說是一個主要由經驗而不是理論驅動的領域。

雖然嘗試模型的順序無定式可言，但咱們仍然能夠遵循由簡至繁的基本規律，即從簡單的可解釋模型（如線性迴歸）開始嘗試，若是發現性能不足再轉而使用更復雜但一般更準確的模型。通常來講，模型的可解釋性與準確性，是幾乎不可同時達到的兩極，解釋性強，意味着犧牲準確性，相反準確性強，意味着模型複雜化，解釋力度變弱。

咱們在綜合考慮解釋性、準確性的基礎之上，對於本文所涉及的數據集，採用線性迴歸、K鄰近、隨機森林、梯度提高、支持向量機這5種主流的機器學習模型，進行逐一的建模和結果比較。

完成全部數據清洗與格式化工做後，接下來的模型建立、訓練和預測工做反而相對簡單，咱們主要經過Scikit-Learn庫（如下簡稱sklearn）完成，sklearn庫有詳細的幫助文檔，對於各類機器學習的算法，你們均可以參考幫助文檔相關的方法說明。

咱們以梯度提高模型（Gradient Boosting Regressor）爲例，爲你們展現從建立模型，到訓練模型，最後預測模型的這一過程，每一個步驟，咱們基本均可以藉助sklearn庫封裝好的函數來完成。

對於其餘的模型，咱們只須要在構建模型的時候，調用不一樣的模型對應方法，便可在少許改寫代碼的前提下，完成全部模型的訓練、評估。咱們計算獲得全部5個模型的Mae指標，並將該指標與基線（Baseline）進行比對。

回顧上文，咱們此前計算獲得的基線Mae指標的數值爲24.5，上述5個模型的Mae都大幅低於基線數值，說明機器學習模型，在這個數據集上，對於最終的目標結果有比較顯著的預測能力的改進。

再來對比5個模型相互之間的Mae，能夠看到梯度提高模型的Mae最低，而線性迴歸模型的Mae最高，這也反應了咱們此前講述的邏輯，模型的可解釋度（複雜程度）與預測能力是一個反向的關係。

超參數調優

固然，在以上的模型訓練中，咱們根據經驗設置了模型的超參數，並無對這些參數進行調優處理。對於一個機器學習任務，在肯定模型後，咱們能夠針對咱們的任務調整模型超參數，以此來優化模型表現。

在超參數調優工做前，咱們先簡要介紹一下，超參數與普通參數定義的區別。機器學習中的超參數，一般被認爲是數據科學家在訓練以前對機器學習算法的設置，常見的有隨機森林算法中樹的個數或K-近鄰算法中設定的鄰居數等。

超參數的設定會直接影響模型「欠擬合」與「過擬合」的平衡，進而影響模型表現。欠擬合是指咱們的模型不足夠複雜（沒有足夠的自由度）去學習從特徵到目標特徵的映射。一個欠適合的模型有着很高的誤差（bias），咱們能夠經過增長模型的複雜度來糾正這種誤差（bias）。而過擬合則相反，它指的是咱們的模型過分記憶了訓練數據的狀況，在樣本外的測試集會與訓練集有較大的誤差，對於過擬合，咱們能夠在模型中引入正則化的規則，在必定程度上加以免。

對於不一樣的機器學習問題，每一個問題都有其特有的最優超參數組合，不存在全部問題通用的最優解。所以，超參數的遍歷、尋優，是找到最優超參數組合的惟一有效方式。咱們一樣借用sklearn庫中的相關函數完成超參數的尋優，並經過隨機搜索（Random Search）、交叉驗證（Cross Validation）這兩種方法實現。

隨機搜索（Random Search）是指，定義一個網格後採用隨機抽樣的方式，選取不一樣的超參數組合，隨機搜索相比較普通的全網格搜索，在不影響優化性能的前提下，大幅減小了參數尋優的時間。

交叉驗證（Cross Validation），又稱爲K折交叉驗證，原始樣本被隨機劃分爲k等份子樣本。在k份子樣本中，依次保留一個子樣本做爲測試模型的驗證集，剩下的k-1子樣本用做模型訓練，重複進行k次（the folds）交叉驗證過程，每個子樣本都做爲驗證數據被使用一次。而後，這些摺疊的k結果能夠被平均（或其餘組合）產生一個單一的估計。最後，咱們將K次迭代的平均偏差做爲最終的性能指標。