支持向量機（SVM）原理闡述

時間 2019-11-18

標籤支持向量 svm 原理闡述简体版

原文原文鏈接

支持向量機（Support Vector Machine, SVM）是一種二分類模型。給定訓練集D = {(x₁,y₁), (x₂,y₂), ..., (x_m,y_m)}，分類學習的最基本的想法便是找到一個超平面S：，從而將訓練集D的樣本空間中不一樣類別的樣本區分開。html

SVM的模型，由簡至繁地，包括：線性可分支持向量機（linear SVM in linearly separable case）、線性支持向量機（linear SVM）以及非線性支持向量機（non-linear SVM）。算法

當訓練數據線性可分時，SVM試圖尋找硬間隔最大化（hard margin maximization）的劃分超平面，由於這樣的超平面產生的分類結果是最魯棒的，由此學習的線性分類器稱爲線性可分支持向量機；而當訓練數據近似線性可分時，經過軟間隔最大化（soft margin maximization），也可學習獲得分類器，稱爲線性支持向量機；當數據線性不可分時，則可使用核技巧（kernel methods）以及軟間隔最大化，習得非線性支持向量機。「間隔、」核技巧「等相關概念均將在下文中予以闡述。數組

1、線性可分支持向量機

1.1 間隔與支持向量

如前文所述，劃分超平面能夠用線性方程來描述，其中ω爲法向量，b爲位移。因而，劃分超平面能夠由ω和b肯定，記爲(ω, b)。利用高中解析幾何的相關知識容易推算出，樣本空間中任意點到超平面(ω, b)的距離即爲機器學習

因爲若超平面(ω', b')能夠對樣本正確分類，則對於(x_i,y_i)，若y_i=+1，則；若y_i=-1，則。令函數

則總存在縮放變換ςω→ω',ςb→b'使得上式成立。由此，定義」支持向量「（support vector）爲知足上式且距離超平面最近的點。兩個異類支持向量到超平面的距離之和被稱爲」間隔「（margin），爲。順便一提，所謂樣本都必須劃分正確的情形稱爲「硬間隔」（hard margin），而「軟間隔」（soft margin）則容許某些樣本不知足。學習

SVM的任務是找到」最大間隔「（maximum margin）的劃分超平面。因而，SVM的基本型能夠表達爲優化

進而能夠寫爲.net

值得注意的是，間隔貌似只與ω有關，但事實上，b經過約束隱式地影響着ω的取值，進而對間隔產生影響。orm

1.2 對偶問題與SMO算法

爲求解獲得最大間隔劃分超平面的模型，一種高效的辦法是利用lagrange乘子法獲得SVM基本型的」對偶問題「（dual problem），再利用SMO算法求解。htm

首先，在基本型中，對每條約束添加lagrange乘子，獲得lagrange函數爲

爲取到函數的最值，令L(ω,b,α)對ω和b分別求偏導爲零，獲得

代入L(ω,b,α)，消去ω和b，即獲得SVM基本型的對偶問題

且上述過程須要知足KKT條件，即要求

直接用二次規劃算法來求解對偶問題，開銷較大。比較高效的是SMO算法（Sequential Minimal Optimization）。

SMO首先初始化參數，而後不斷執行下述步驟直至收斂：

選取一對須要更新的α_i和α_j；
固定α_i和α_j之外的參數，求解上式得到更新後的α_i和α_j。

最後，由，能夠肯定偏移項b爲

1.3 核函數

若是原始樣本空間中不存在能夠正確劃分樣本的超平面，則能夠將樣本從原始空間映射到更高維的特徵空間，使得樣本在此特徵空間內線性可分。事實上，若原始空間是有限維的，則必定存在一個更高維的空間使樣本線性可分。

令Φ(x)表示將x映射後的特徵向量，則在特徵空間中，劃分超平面對應的模型可表示爲。因而獲得基本型

及其對偶問題

直接計算Φ(x_i)^TΦ(x_j)一般比較困難，爲此，引入」核函數「（kernel function）k(•,•)。設k(x_i, x_j) = <Φ(x_i), Φ(x_j)> = Φ(x_i)^TΦ(x_j)，則對偶問題能夠重寫爲

求解後即獲得

此展式亦稱爲」支持向量展式「（support vector expansion）。

那麼，合適的核函數是否必定存在？什麼樣的核函數能做爲核函數呢？對此，有以下定理：

定理令爲輸入空間，k(•,•)爲定義在上的對稱函數，則k是核函數當且僅當對於任意數據D = {x₁,x₂,...,x_m}，」核矩陣「（kernel matrix）K老是半正定的：

書中給出了幾種常見的核函數，見於下表

此外，核函數還能夠經過函數組合獲得：

若k₁和k₂是核函數，則k₁(x,z)k₂(x,z)也是核函數；
若k₁是核函數，則對於任意函數g(x)，k(x,z) = g(x)k₁(x,z)g(z)也是核函數。

2、線性支持向量機

2.1 軟間隔與正則化

如前文提到的，而「軟間隔」容許某些樣本不知足。儘管如此，仍是但願不知足約束的樣本儘量少。因而，優化目標能夠改寫爲

其中，C>0是常數，是「0/1損失函數」

爲了使得優化目標更易於求解，引入一些數學性質更好的函數來替代，成爲「替代損失」（surrogate loss）。替代損失函數一般是凸的、連續的，且是的上界。下面列出了一些經常使用的替代損失函數：

hinge損失：
指數損失(exponential loss）：
對率損失（logistic loss）：

例如，若是採用hinge損失，則優化目標變爲

進而引入「鬆弛變量」（slcak variable）ξ_i≥0。每一個樣本都對應一個鬆弛變量，用以表徵該樣本不知足約束的程度。由此，上式能夠重寫爲

此即爲常見的「軟間隔支持向量機」，亦即「線性支持向量機」。

相似線性可分支持向量機的求解，首先經過lagrange乘子法獲得lagrange函數

其中，是lagrange乘子。對ω,b,ξ_i分別求偏導爲零，獲得

代入原式即獲得對偶問題

且上述過程知足KKT條件

值得注意的是，SVM與對率迴歸的優化目標相近。好比，若將對率損失做爲替代損失函數帶入，則幾乎就獲得對率迴歸模型。

不過，與對率迴歸模型不一樣的是，SVM不具備機率意義。對率迴歸可直接用於多分類任務，而SVM則須要推廣。另外一方面，因爲hinge損失有一塊「平坦的」零區域，使得SVM的解具備稀疏性，而對率迴歸的解則依賴更多的訓練樣本，預測開銷更大。

用不一樣函數做爲替代損失函數獲得的學習模型的性質與替代函數直接相關，但這些模型具備一個共性：即優化目標中，第一項用來描述劃分超平面的「間隔」大小，另外一項則用來表述訓練集上的偏差。因而，更通常的形式可寫爲

其中Ω(ƒ)稱爲「結構風險」（structural risk），用於描述模型自身的一些性質；成爲「經驗風險」（empirical risk），用於描述與訓練集的契合程度。上述形式也可稱爲「正則化」（regularization）問題，其中Ω(ƒ)爲正則化項，C爲正則化常數，而L_p範數（norm）爲經常使用的正則化項。好比，L₂範數傾向於非零份量個數儘可能稠密；而L₀和L₁範數傾向非零份量個數儘可能少。