本文來自同步博客。html
前面介紹的SVM
,不管是線性可分仍是非線性可分,稱爲Hard Margin SVM
,都要求對輸入數據進行精確劃分。咱們不難想到這類SVM
存在過擬合這個問題。若是輸入數據自己就存在偏差,精確劃分反而是沒意義的。本篇文章就如何處理過擬合問題,介紹即所謂的Soft Margin SVM
。函數
引入衡量偏差的變量 -\xi\_i-−ξ_i−。-\xi\_i-−ξ_i−表示不能被正確分類的樣本點距離正確一側邊界的距離,距離越大表示錯誤越大,即-\xi\_i-−ξ_i−越大。若是樣本點能被正確分類,則-\xi\_i = 0-−ξ_i=0−。故有-\xi\_i \ge 0-−ξ_i≥0−。spa
那麼,原來能經過求解函數-\frac{1}{2}\vec{w}^{2}-−21w3d
能夠以下構造函數來描述偏差:
\frac{1}{2}\vec{w}^{2} + C\sum_{i}^{n}{\xi\_i}21wcode
這個函數把全部輸入數據的偏差疊加在一塊兒,即-\sum_{i}^{n}{\xi\_i}-−∑inξ_i−。而後用參數C來控制全部偏差的權重。若是C很大,表示即便有很小的偏差出現都會嚴重影響目標函數。orm
結合以前文章提到的知識,能夠構造拉格朗日方程:htm
L(\vec{w}, b, \vec{\xi}, \vec{\alpha}, \vec{\beta}) = \frac{1}{2}\vec{w}^{T}\vec{w} + C\sum_{i}^{n}{\xi\_i} - \sum\_{i}^{n}{\alpha\_i[y\_i(\vec{w}^{T}\vec{x\_i}+b)-1+\xi\_i]} - \sum\_{i}^{n}\beta\_i\xi\_iL(w