用交叉驗證改善模型的預測表現－着重k重交叉驗證

時間 2019-11-06

標籤交叉驗證改善模型預測表現着重简体版

原文原文鏈接

機器學習技術在應用以前使用「訓練+檢驗」的模式（一般被稱做」交叉驗證「）。html

預測模型爲什麼沒法保持穩定？

讓咱們經過如下幾幅圖來理解這個問題：python

此處咱們試圖找到尺寸（size）和價格（price）的關係。三個模型各自作了以下工做：算法

第一個模型使用了線性等式。對於訓練用的數據點，此模型有很大偏差。這樣的模型在初期排行榜和最終排行榜都會表現很差。這是「擬合不足」(「Under fitting」）的一個例子。此模型不足以發掘數據背後的趨勢。
第二個模型發現了價格和尺寸的正確關係，此模型偏差低/歸納程度高。
第三個模型對於訓練數據幾乎是零偏差。這是由於此關係模型把每一個數據點的誤差（包括噪聲）都歸入了考慮範圍，也就是說，這個模型太過敏感，甚至會捕捉到只在當前數據訓練集出現的一些隨機模式。這是「過分擬合」（「Over fitting」）的一個例子。這個關係模型可能在初榜和終榜成績變化很大。

在應用中，一個常見的作法是對多個模型進行迭代，從中選擇表現更好的。然而，最終的分數是否會有改善依然未知，由於咱們不知道這個模型是更好的發掘潛在關係了，仍是過分擬合了。爲了解答這個難題，咱們應該使用交叉驗證（cross validation）技術。它能幫咱們獲得更有歸納性的關係模型。app

實際上，機器學習關注的是經過訓練集訓練事後的模型對測試樣本的分類效果，咱們稱之爲泛化能力。左右兩圖的泛化能力就很差。在機器學習中，對誤差和方差的權衡是機器學習理論着重解決的問題。dom

什麼是交叉驗證？

交叉驗證意味着須要保留一個樣本數據集，不用來訓練模型。在最終完成模型前，用這個數據集驗證模型。機器學習

交叉驗證包含如下步驟：函數

保留一個樣本數據集。－－測試集
用剩餘部分訓練模型。－－訓練集
用保留的數據集（測試集）驗證模型。

這樣作有助於瞭解模型的有效性。若是當前的模型在此數據集也表現良好，那就帶着你的模型繼續前進吧！它棒極了！學習

交叉驗證的經常使用方法是什麼？

交叉驗證有不少方法。下面介紹其中幾種：測試

1. 「驗證集」法spa

保留 50% 的數據集用做驗證，剩下 50% 訓練模型。以後用驗證集測試模型表現。不過，這個方法的主要缺陷是，因爲只使用了 50% 數據訓練模型，原數據中一些重要的信息可能被忽略。也就是說，會有較大偏誤。

2. 留一法交叉驗證 ( LOOCV )

這種方法只保留一個數據點用做驗證，用剩餘的數據集訓練模型。而後對每一個數據點重複這個過程。這個方法有利有弊：

因爲使用了全部數據點，因此誤差較低。
驗證過程重複了 n 次（ n 爲數據點個數），致使執行時間很長。
因爲只使用一個數據點驗證，這個方法致使模型有效性的差別更大。獲得的估計結果深受此點的影響。若是這是個離羣點，會引發較大誤差。

3. K 層交叉驗證 (K- fold cross validation)

從以上兩個驗證方法中，咱們學到了：

應該使用較大比例的數據集來訓練模型，不然會致使失敗，最終獲得偏誤很大的模型。
驗證用的數據點，其比例應該恰到好處。若是太少，會致使驗證模型有效性時，獲得的結果波動較大。
訓練和驗證過程應該重複屢次（迭代）。訓練集和驗證集不能一成不變。這樣有助於驗證模型有效性。

是否有一種方法能夠兼顧這三個方面？

答案是確定的！這種方法就是「 K 層交叉驗證」這種方法簡單易行。簡要步驟以下：

把整個數據集隨機分紅 K「層」
用其中 K-1 層訓練模型，而後用第K層驗證。
記錄從每一個預測結果得到的偏差。
重複這個過程，直到每「層」數據都做過驗證集。
記錄下的 k 個偏差的平均值，被稱爲交叉驗證偏差（cross-validation error）。能夠被用作衡量模型表現的標準。

把整個數據集隨機分紅 K「層」

對於每一份來講：

1).以該份做爲測試集，其他做爲訓練集； (用其中 K-1 層訓練模型，而後用第K層驗證)

2).在訓練集上獲得模型；

3).在測試集上獲得生成偏差，這樣對每一份數據都有一個預測結果；(記錄從每一個預測結果得到的偏差)

記錄下的 k 個偏差的平均值，被稱爲交叉驗證偏差（cross-validation error）。能夠被用作衡量模型表現的標準

取偏差最小的那一個模型。