基本模型是定義在特徵空間上的間隔最大的線性分類器。核技巧使之成爲實質上的非線性分類器。
學習策略是間隔最大化,可形式化爲求解凸二次優化問題。等價於正則化的合頁損失函數的最小化問題。
學習算法是求解凸二次規劃的最優化算法。
理解支持向量機能夠從簡至繁推動:線性可分支持向量機(硬間隔SVM),線性支持向量機(軟間隔SVM),非線性支持向量機(軟間隔最大化+核技巧)。算法
假設給定訓練數據集:\(T={(x_1,y_1), (x_2, y_2), ..., (x_N, y_N)}\)
其中\(x \in R^n\),\(y\in\{+1, -1\}\),+1表示爲正例,-1表示負例。函數
學習的目標在於在特徵空間中尋找一個分離超平面\(w \cdot x + b = 0\),將正例和負例正確分開。感知機利用誤分類最小的策略。SVM利用間隔最大化的策略。學習
假設訓練數據集線性可分,則存在無窮個分離超平面可將兩類數據正確分開。若分類超平面爲:\(w \cdot x + b = 0\)
相應的分類決策函數爲:\(f(x)=sign(w \cdot x + b)\)
這種判別爲模型爲線性可分SVM。優化
線性可分SVM的學習策略(尋找超平面的策略)爲間隔最大化。
那麼,何爲間隔呢?
對於一個分離超平面\(w \cdot x +b = 0\),樣本點\(x_i\)距離超平面的幾何距離爲:
\(\gamma_i = \frac{|w \cdot x+b|}{||w||}\)。通常來講,點\(x_i\)距離超平面的遠近能夠表示分類預測的確信度。距離超平面較遠的點,其分類預測結果更可信。\(w \cdot x_i + b\)的符號與類標記\(y_i\)是否一致表示分類的正確性。spa
間隔就是分類正確性和確信度的一種表達,可分爲函數間隔和幾何間隔。\(|w \cdot x_i + b|\)能夠相對地表示點\(x_i\)距離超平面的遠近,\(y_i(w \cdot x_i +b)\)爲函數間隔。\[\frac{y_i(w \cdot x_i + b)}{||w||}\]爲幾何間隔。class
SVM學習的基本想法是求解可以正確劃分訓練數據集且幾何間隔最大的分離超平面。
\(min \gamma\)
\(s.t. \frac{y_i(w \cdot x_i + b)}{||w||}>\gamma\)技巧