過擬合:模型在測試集上的效果表現很好,在訓練集上的效果與在訓練集上的效果差別很大,這種狀況就是發生了過擬合。函數
過擬合是過分擬合的訓練集中的數據。性能
一、因爲樣本量不足,訓練樣本的分佈於測試樣本之間的分佈存在差別。測試
二、在樣本量不足的狀況下,訓練模型時,令代價函數等於零(極端),使得模型的泛化性能不好,致使了過擬合。.net
處理過擬合的方法視頻
(1)正則化,就是在在模型中考慮模型複雜度,同時考慮經驗風險和模型複雜度,預防過擬合。get
(2)交叉驗證,就是將訓練集和測試集來回使用,反覆訓練驗證。通常分爲簡單交叉驗證,S折交叉驗證,留一交叉驗證。方法
(3)增長樣本的全面性和數量; 經驗
(4)控制模型的複雜度; 數據
(5)不要過分訓練 模型
(6)模型融合本質上也是一種提升泛化能力的方法
NG:
訓練集偏差與交叉驗證集偏差近似時:誤差/欠擬合
交叉驗證集偏差遠大於訓練集偏差時:方差/過擬合
參考:[1] http://lib.csdn.net/article/machinelearning/33798
[2] NG視頻