支持向量機(SVM)原理與公式推導

一. SVM簡介

支持向量機一般用於解決二分類問題,即給定數據集T={( x 1 x_1 , y 1 y_1 ),( x 2 x_2 , y 2 y_2 ),( x 3 x_3 , y 3 y_3 )…},找到一個可以分開數據集的超平面: w x + b = 0 (   1.1 ) w^* \cdot x+b^*=0\qquad (式 \ 1.1) 此最優超平面應當使支持向量到超平面上的幾何間隔d最大。
在這裏插入圖片描述
如上圖所示,在向量空間中構造三個相互平行的超平面F,Fa,Fb。一般將離超平面F最近的一些樣本點稱之爲支持向量(Support Vector),由支持向量約束構成的超平面Fa,Fb稱爲支持超平面。由於在超平面F與樣本集均確定的條件下,所有支持向量也是確定的,在訓練過程中需要計算所有支持向量到超平面F的幾何間隔d。

二. 將幾何間隔最大值問題轉化爲最小值問題

幾何間隔 d d 與間隔 u u 可以用以下公式計算,其中 ( x , y ) (x,y) 爲樣本點: d = y ( w x + b ) 1 w (   2.1 ) d=y\cdot (w^* \cdot x+b^*)\cdot \frac{1}{||w||}\qquad (式 \ 2.1) u = y ( w x + b ) (   2.2 ) u=y\cdot (w^* \cdot x+b^*)\qquad (式 \ 2.2) y y 表示數據標籤,在二分類問題中一般爲1/-1,這樣定義後,不論樣本點在超平面的哪一側,都能保證 u u 總爲正數。在實際使用中,爲了方便計算,通常固定間隔 u = 1 u=1 ,這樣,求 d d 的最大值問題變爲求 w ||w|| 的最小值問題,於是可以轉化爲求解如下的二次規劃問題: min w , b 1 2 w 2 (   2.3 ) \min_{w,b}\frac{1}{2}||w||^2\qquad (式 \ 2.3) y i ( w x i + b ) 1 0 i = 1 , 2 , . . . , N 條件:y_i\cdot (w\cdot x_i+b)-1\geq0,i=1,2,...,N
對於線性可分數據集,這是一個凸二次規劃問題,必有解。

三. 將二次規劃問題轉化爲對偶優化問題

定義拉格朗日函數: L ( w , b , λ ) = 1 2 w 2 i = 1 N λ i y i ( w x i + b ) + i = 1 N λ i (   3.1 ) L(w,b,\lambda)=\frac{1}{2}||w||^2-\sum_{i=1}^N\lambda_iy_i(w\cdot x_i+b)+\sum_{i=1}^N\lambda_i\qquad (式 \ 3.1)
根據拉格朗日對偶性,(式 2.3)的對偶問題是以下極大極小值問題: max λ min w , b L ( w , b , λ ) (   3.2 ) \max_\lambda\min_{w,b}L(w,b,\lambda)\qquad (式 \ 3.2)
可以分兩步解決:

  1. min w , b L ( w , b , λ ) \min_{w,b}L(w,b,\lambda)
    拉格朗日函數 L ( w , b , λ ) L(w,b,\lambda) 分別對 w , b w,b 求偏導,並令其等於0,整理後可得到: w = i = 1 N λ i y i x i (   3.3 ) w=\sum_{i=1}^N\lambda_iy_ix_i\qquad (式 \ 3.3) i = 1 N λ i y i = 0 (   3.4 ) \sum_{i=1}^N\lambda_iy_i=0\qquad (式 \ 3.4) 將(式 3.3)與(式 3.4)帶入(式 3.1)中,即可得到: min w , b L ( w , b , λ ) = 1 2 i = 1 N j = 1 N λ i λ j y i y j ( x i x j ) + i = 1 N λ i (   3.5 ) \min_{w,b}L(w,b,\lambda)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\lambda_i\qquad (式 \ 3.5)
  2. min w , b L ( w , b , λ ) \min_{w,b}L(w,b,\lambda) λ \lambda 的極大值
    在(式 3.5)前加負號將極大值問題轉化爲極小值問題: min λ 1 2 i = 1 N j = 1 N λ i λ j y i y j ( x i x j ) = i = 1 N λ i (   3.6 ) \min_\lambda\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_j(x_i\cdot x_j)=\sum_{i=1}^N\lambda_i\qquad (式 \ 3.6) i = 1 N λ i y i = 0 λ i 0 , i = 1 , 2 , . . . , N 條件:\sum_{i=1}^N\lambda_iy_i=0\quad \lambda_i\geq0,i=1,2,...,N
    由(式 3.6)可以求得拉格朗日乘子 λ \lambda ,依據 λ \lambda 帶入(式 3.3)與(式 3.1)中可以求得 w , b w,b ,最終帶入(式 1.1)即可得到最終超平面方程爲: i = 1 N λ i y i ( x i x ) + y i i = 1 N λ i y i ( x i x j ) = 0 (   3.7 ) \sum_{i=1}^N\lambda_iy_i(x_i\cdot x)+y_i-\sum_{i=1}^N\lambda_iy_i(x_i\cdot x_j)=0\qquad (式 \ 3.7)

四. 核函數

核函數的標準定義:
X X 爲輸入空間,而 H H 爲特徵空間,設存在一個從 X X H H 的映射 ϕ ( x ) : X H \phi(x):X\rightarrow H ,使得對所有的 x , z X x,z\in X ,函數 K ( x , z ) K(x,z) 滿足條件: K ( x , z ) = ϕ ( x ) ϕ ( z ) K(x,z)=\phi(x)\cdot \phi(z) ,則稱 K ( x , z ) K(x,z) 爲核函數, ϕ ( x ) \phi(x) 爲映射函數。式中 ϕ ( x ) ϕ ( z ) \phi(x)\cdot \phi(z) ϕ ( x ) \phi(x) ϕ ( z ) \phi(z) 的內積。

在上文的(式3.6)與(式3.7)中,可以注意到樣本的輸入x總是成對乘積的形式,在此可以將兩個輸入的歐式乘積定義爲核函數 K ( x i , x j ) K(x_i,x_j) ,利用此核函數就可求得最終解。
核函數可以將輸入空間通過映射函數映射到特徵空間中,一般來說從低維映射到高維。在低維空間中的線性不可分問題轉化至高維空間中可能爲線性可分問題,即在高維空間中使用 ϕ ( x ) ϕ ( z ) \phi(x)\cdot \phi(z) 求解優化問題。利用核函數不需要顯性地給定映射,而只需定義一個低維空間中的運算使其值等於在高維空間中的乘積運算。
常用的核函數有以下幾種:

  • 線性核: K ( x 1 , x 2 ) = x 1 T x 2 + c K(x_1,x_2)=x_1^Tx_2+c
  • 多項式核: K ( x 1 , x 2 ) = ( a x 1 T x 2 + c ) d K(x_1,x_2)=(ax_1^Tx_2+c)^d
  • 徑向基核函數: K ( x 1 , x 2 ) = exp ( γ x 1 x 2 2 ) K(x_1,x_2)=\exp(-\gamma||x_1-x_2||^2)
  • Sigmoid核函數: K ( x 1 , x 2 ) = tanh ( a ( x 1 T x 2 ) + c ) K(x_1,x_2)=\tanh(a(x_1^Tx_2)+c)