從線性到非線性模型-支持向量機

時間 2021-01-02

欄目應用數學简体版

原文原文鏈接

從線性到非線性模型

1、線性迴歸，嶺迴歸，Lasso迴歸，局部加權線性迴歸

2、logistic迴歸，softmax迴歸，最大熵模型

3、廣義線性模型

4、Fisher線性判別和線性感知機

5、三層神經網絡

6、支持向量機

六、支持向量機

在線性模型中，Fisher線性判別和線性感知機可以說是以上所有模型的分類依據，前者是映射到一維執其兩端進行分類，後者是在高維空間找一個線性超平面將兩類分開（兩類可擴展到多類）。支持向量機屬於後者，但主要有以下幾點改進：

1）提出硬間隔線性可分，在感知機的基礎上提出了線性可分假設（無損失），最大化最小間隔

2）提出軟間隔線性可分，得到了hinge損失代替感知機的線性損失(後面補充一個線性模型損失對比圖)

3）結合核函數將數據映射到高維空間，使得模型具有非線性能力

4）具有感知機的一切解釋性，同時目標函數的對偶形式是凸二次規劃問題

硬間隔（最大化最小間隔分類器）：

線性感知機中由於沒有線性可分假設，所以其目標函數定義爲最小化錯分樣本的損失，而硬間隔SVM則提出了一個線性可分假設，即樣本在高維空間中線性可分，那麼使得兩類分開的超平面一定有無限個。硬間隔SVM則在這些超平面中找出最優的（即所有樣本到超平面距離加和最小化），所以有如下目標函數：

min \sum_{i = 1}^{m} \frac{1}{| | w | |^{2}} y_{i} (w \cdot x_{i} + b)

其中

\frac{1}{| | w | |^{2}} y_{i} (w \cdot x_{i} + b)

爲點到平面的幾何間隔，去掉係數爲函數間隔。最大化最小間隔分類器則採用等價形式—使得最難分的樣本離超平面距離儘可能的大—最大化最小間隔分類器

max_{w, b} γ s . t . \frac{1}{| | w | |^{2}} y_{i} (w \cdot x_{i} + b) > γ, i \in 1, 2... m

max_{w, b} \frac{γ}{| | w | |^{2}} s . t . y_{i} (w \cdot x_{i} + b) > γ, i \in 1, 2... m

令 $γ = 1$ 有：

min_{w, b} \frac{1}{2} | | w | |^{2} s . t . y_{i} (w \cdot x_{i} + b) - 1 > 0, i \in 1, 2... m

到此，上式爲硬間隔分類器的原問題最終形式。上述問題可使用拉格朗日乘子法和對偶問題進行求解。

拉格朗日函數

min_{w, b} \frac{1}{2} | | w | |^{2} - \sum_{i = 1}^{m} α_{i} (y_{i} (w \cdot x_{i} + b) - 1) s . t . ▽ L (w, b, α_{i}) = 0 α_{i} (y_{i} (w \cdot x_{i} + b) - 1) = 0 α_{i} \geq 0 y_{i} (w \cdot x_{i} + b) - 1 > 0, i \in 1, 2... m

其中

▽ L (w, b, α_{i}) = 0

由Fritz John條件得出，

α_{i} (y_{i} (w \cdot x_{i} + b) - 1) = 0

爲互補鬆弛條件，互補鬆弛條件與支持向量有密切關係。由上述約束條件有：

\frac{▽ L (w, b, α_{i})}{w} = w - \sum_{i = 1}^{m} α_{i} y_{i} x_{i} = 0 \frac{▽ L (w, b, α_{i})}{b} = \sum_{i = 1}^{m} α_{i} y_{i} = 0 b = y_{j} - \sum_{i = 1}^{m} α_{i} y_{i} x_{i} \cdot x_{j}

將上式帶入到拉格朗日函數，得到關於

α

表示的函數：

L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} x_{j} + \sum_{i = 1}^{m} α_{i}

最大化關於

α

的函數即爲原問題的對偶問題,如下：

max L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} x_{j} + \sum_{i = 1}^{m} α_{i} \Leftrightarrow min \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} x_{j} - \sum_{i = 1}^{m} α_{i} s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 α_{i} \geq 0

解出上式目標函數

α

後，有

w, b

w = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} b = y_{j} - \sum_{i = 1}^{m} α_{i} y_{i} x_{i} \cdot x_{j}

其中可以看出，w和b有樣本點與

α

內積確定。

但是回過頭來想，線性可分假設是不現實，所以SVM在硬間隔線性可分的基礎上提出軟間隔線性可分。即允許線性不可分，但是需要進行一定的懲罰。如下圖爲軟間隔線性可分，其中在支持向量裏面的點和錯分的樣本爲線性不可分的點，虛線上的點爲支持向量。

軟間隔SVM：

線性不可分意味着某些樣本不滿足函數間隔大於 $1$ 的約束條件，爲了解決這個問題，可以對每個樣本引入一個鬆弛變量 $ξ_{i} \geq 0$ ，使得函數間隔加上鬆弛變量大於等於1，這樣約束條件變爲：

y_{i} (w \cdot x_{i} + b) > 1 - ξ_{i}, i \in 1, 2.. m

同時對於線性不可分的樣本進行懲罰，因此目標函數變爲：

m i n_{w, b} \frac{1}{2} | | w | | + C \sum_{i = 1}^{m} ξ_{i}

因此最終的線性不可分SVM的目標函數如下：

m i n_{w, b} \frac{1}{2} | | w | | + C \sum_{i = 1}^{m} ξ_{i} s . t . y i (w \cdot x i + b) > 1 - ξ_{i}, i \in 1, 2.. m ξ_{i} \geq 0, i \in 1, 2.. m

拉格朗日函數

m i n_{w, b} \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ξ_{i} - \sum_{i = 1}^{m} α_{i} (y_{i} (w \cdot x_{i} + b) - 1 + ξ_{i}) - \sum_{i = 1}^{m} β_{i} ξ_{i} s . t . ▽ L (w, b, ξ_{i}, α_{i}, β_{i}) = 0 α_{i} (y_{i} (w \cdot x_{i} + b) - 1 + ξ_{i}) = 0 β_{i} ξ_{i} = 0 α_{i} \geq 0 β_{i} \geq 0 y_{i} (w \cdot x_{i} + b) - 1 \geq 0, i \in 1, 2... m ξ_{i} \geq 0, i \in 1, 2.. m

由上述約束條件有：

\frac{▽ L (w, b, α_{i})}{w} = w - \sum_{i = 1}^{m} α_{i} y_{i} x_{i} = 0 \frac{▽ L (w, b, α_{i})}{b} = \sum_{i = 1}^{m} α_{i} y_{i} = 0 \frac{▽ L (w, b, α_{i})}{ξ_{i}} = C - α_{i} - β_{i} = 0 b = y_{j} - \sum_{i = 1}^{m} α_{i} y_{i} x_{i} \cdot x_{j}

將上式帶入到拉格朗日函數，得到目標函數關於

α ， β

表示的函數,同硬間隔的對偶函數一致：

L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} x_{j} + \sum_{i = 1}^{m} α_{i}

最大化關於

α

的函數即爲原問題的對偶問題，而對偶問題爲原問題提供一個下界，即原問題的對偶問題如下：

max L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} x_{j} + \sum_{i = 1}^{m} α_{i} \Leftrightarrow min \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} x_{j} - \sum_{i = 1}^{m} α_{i} s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 C - α_{i} - β_{i} = 0 α_{i} \geq 0 β_{i} \geq 0 \Leftrightarrow min \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} x_{j} - \sum_{i = 1}^{m} α_{i} s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 0 \leq α_{i} \leq C

解出上式目標函數

α, β

後，有

w, b

w = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} b = y_{j} - \sum_{i = 1}^{m} α_{i} y_{i} x_{i} \cdot x_{j}

可以看出，w和b由樣本點與

α

內積確定，當

α_{i} = 0

表示第i個樣本點滿足

y_{i} (w \cdot x_{i} + b) - 1 \geq 0

條件，該點不在支持向量內部，w與該點無關，支持向量機的參數

w

只與支持向量以內的點有關。

對比硬間隔和軟間隔SVM發現兩者的對偶問題非常相似，唯一不同的在於 $0 \leq α$ ， $0 \leq α \leq C$ ，也就是說在約束條件上不能讓 $α$ 值太大。而 $α$ 不爲 $0$ 的意義就是該點線性不可分—在支持向量以內，不能讓 $α$ 太大的意義就是儘可能的不要讓樣本在支持向量太裏面。這也就是懲罰項引入後的結果。

下面根據 $α, β$ 的取值來分析樣本點的一個位置，以及樣本點對SVM參數的影響：

當 $α_{i} = 0$ ,則 $β_{i} = C ， ξ_{i} = 0$ ，表示樣本點在支持向量上或者以外的，以外的點對參數 $w$ 無價值

當 $0 < α_{i} < C$ ,則 $0 < β_{i} < C ， ξ_{i} = 0$ ，表示樣本點在支持向量上

當 $α_{i} = C$ ,則 $0 = β_{i}$ ，如果 $0 < ξ_{i} < 1$ ，表示樣本在支持向量內部，但分類正確

當 $α_{i} = C$ ,則 $0 = β_{i}$ ，如果 $ξ_{i} = 1$ ，表示樣本在超平面上

當 $α_{i} = C$ ,則 $0 = β_{i}$ ，如果 $ξ_{i} > 1$ ，表示樣本分類錯誤

核函數：

核函數的應用主要是解決線性不可分問題，通過選擇合適的核函數將樣本從低維線性不可分映射到高維之後容易線性可分，本質上是一次空間上的非線性變換（特徵映射），核函數可以嫁接到很多線性模型上，使其具有非線性能力，只是核函數的選擇是一件難定的事。

而SVM與核函數有着天然的契合度，因爲在SVM的對偶問題中，需要計算樣本之間的內積，而核函數的引入則可以使得內積操作直接在覈函數中隱式完成。

L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} \cdot x_{j} + \sum_{i = 1}^{m} α_{i}

在上式中有

x_{i} \cdot x_{j}

內積操作，當我們使用核技巧時，往往需要定義一個核函數

ϕ (x)

進行特徵空間變換，然後在新的特徵空間中進行

ϕ (x_{i}) \cdot ϕ (x_{j})

內積操作，這使得計算過程分兩步完成。如果我們隱式的定義核函數如下：

K (x_{i}, x_{j}) = ϕ (x_{i}) \cdot ϕ (x_{j})

L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} K (x_{i}, x_{j}) + \sum_{i = 1}^{m} α_{i}

直接定義 $K (x_{i}, x_{j})$ 作爲核函數，而不管實際的核函數 $ϕ (x)$ 是如何將x映射到 $ϕ (x)$ 空間，然後在新的特徵空間計算內積。這樣，我們就隱式完成了內積操作，將核函數與內積操作一步完成爲 $K (x_{i}, x_{j})$ 。當然，核函數必須滿足核函數的性質。

一般常採用的核函數有：

線性核 $K (x_{i}, x_{j}) = x_{i}^{T} x_{j}$

多項式核 $K (x_{i}, x_{j}) = (x_{i}^{T} x_{j})^{d}$

高斯核 $K (x_{i}, x_{j}) = e x p (- \frac{(x_{i} - x_{j})^{2}}{2 σ^{2}})$

拉普拉斯核 $K (x_{i}, x_{j}) = e x p (- \frac{| | x_{i} - x_{j} | |}{2 σ^{2}})$

sigmoid核 $K (x_{i}, x_{j}) = t a n h (β x_{i}^{T} x_{j} + θ)$

然而核技巧中，最盲目的是如何選擇合適核函數，或者多核。

這裏需要解釋的是，SVM對核函數有一個自身的要求，核的大小一定是 $m^{2}$ 。因爲SVM在做內積時是所有點彼此做內積，所以複雜度是 $m^{2}$ 。這也是SVM難以適應大規模數據的場景，SVM的複雜度 $m^{2} d$ 體現在內積上，帶核的SVM的複雜度體現在覈函數的計算上。而這不是核函數的特點，核函數中核的大小是自定義的。

SMO優化算法

min \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} x_{i} x_{j} - \sum_{i = 1}^{m} α_{i} s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 0 \leq α_{i} \leq C

SVM優化問題是一個典型的帶約束凸二次規劃，傳統的梯度方法不能直接應用於帶約束優化問題，下面先介紹一種座標上升優化算法，算法的思想是對於多個參數的優化求解問題，可以每次只考慮一個變量，而固定其他所有變量，對一個變量進行目標優化，內循環每一個變量進行優化，外循環直到迭代到收斂。其收斂性類似於EM算法。

因爲內層循環每次只改變一個變量，所以座標上升算法的搜索路徑與座標軸平行

然而，如果每次只改變一個變量來優化SVM，那麼必然不滿足 $\sum_{i = 1}^{m} α_{i} y_{i} = 0$ 約束。所以SMO算法在座標上升算法基礎上又以下兩點改進：

1）爲了滿足 $\sum_{i = 1}^{m} α_{i} y_{i} = 0$ 約束，每次迭代優化選擇兩個變量，其中一個主動變量，另一個被動變量

2）在選擇兩個變量進行優化時，採用啓發式搜索策略，主動變量選擇違反KKT條件最嚴重的一個變量 $α_{1}$ ，在選定 $α_{1}$ 後，被動變量 $α_{2}$ 選擇變化範圍最大的，在優化 $α_{1}$ 和 $α_{2}$ 時使用上下剪輯來使得 $α_{1}$ 和 $α_{2}$ 滿足 $0 \leq α_{i} \leq C$ 約束

現在來看SMO算法，固定m-2個變量不變，將目標函數轉化爲關於 $α_{1}$ 和 $α_{2}$ 的函數：

min \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{j} y_{j} K (x_{i}, x_{j}) - \sum_{i = 1}^{m} α_{i} min W (α_{1}, α_{2}) = \frac{1}{2} α_{1}^{2} K_{11} + \frac{1}{2} α_{2}^{2} K_{22} + y_{1} y_{2} α_{1} α_{2} K_{12} + y_{1} α_{1} \sum_{i = 3}^{m} y_{i} α_{i} K_{i 1} + y_{2} α_{2} \sum_{i = 3}^{m} y_{i} α_{i} K_{i 2} - (α_{1} + α_{2}) s . t . α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{m} α_{i} y_{i} = ς 0 \leq α_{i} \leq C

其中

K_{i j} = K (x_{i}, x_{j})

。

爲了求解兩個變量的二次規劃問題，首先我們分析約束條件，可以看出 $α_{1}$ 和 $α_{2}$ 的可行域是盒子內的一條對角線上，其中盒子由不等式確定，對角線由等式確定，而且由於 $y_{1}$ 和 $y_{2}$ 的不確定性導致存在兩種情況：

至於對角線的位置取決於當前 $α_{1}$ 和 $α_{2}$ 的值。由於優化過程中，我們首先優化的是 $α_{2}$ ，而後由等式約束確定 $α_{1}$ ，所以我們分析 $α_{2}$ 的變化範圍：

當 $y_{1} \neq y_{2}$ 時： $L = m a x (0, α_{2} - α_{1})$ ， $H = m i n (C, C + α_{2} - α_{1})$

當 $y_{1} = y_{2}$ 時： $L = m a x (0, α_{2} + α_{1} - C)$ ， $H = m i n (C, α_{2} + α_{1})$

其中L是爲了保證 $α_{2}$ 的變化不會讓 $α_{1} < 0$ ，H是爲了保證 $α_{2}$ 的變化不會讓 $α_{1} > C$ 。

同樣，由於我們首先優化的是 $α_{2}$ ，所以我們採用 $α_{2}$ 來表示 $α_{1}$ ：

$α_{1} = \frac{(ς - α_{2} y_{2})}{y_{1}}$ ，代入 $min W (α_{1}, α_{2})$ 有（省略了推導步驟）：

W (α_{2}) = a α_{2}^{2} + b α_{2} + c

求導後得到：

\frac{▽ W (α_{2})}{α_{2}} = \frac{y_{2} (((g (x_{2}) - y_{2}) - (g (x_{1}) - y_{1})))}{(K_{11} + K_{22} - 2 K_{12})}

記

E_{i} = g (x_{i}) - y_{i}

，

η = (K_{11} + K_{22} - 2 K_{12})

有：

\frac{▽ W (α_{2})}{α_{2}} = \frac{y_{2} (E_{2} - E_{1})}{η}

所以：

α_{2}^{u n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{η}

回到上下剪輯，最終

α_{2}

的更新值爲：

α_{2}^{n e w} = {\begin{matrix} H, α_{2}^{u n e w} > H \\ α_{2}^{u n e w}, L \leq α_{2}^{u n e w} \leq H \\ L, α_{2}^{u n e w} < L \end{matrix}

再由

\sum_{i = 1}^{m} α_{i} y_{i} = 0

得：

α_{1}^{n e w} = α_{1}^{o l d} + y_{1} y_{2} (α_{2}^{o l d} - α_{2}^{n e w})

最後更新b，由KKT條件當

0 \leq α_{j} \leq C

時，有

b = y_{j} - \sum_{i = 1}^{m} α_{i} y_{i} K_{i j}

當 $0 \leq α_{1} \leq C$ 時：

b^{n e w} = y_{1} - \sum_{i = 1}^{m} α_{i} y_{i} K_{i 1} + α_{1}^{o l d} y_{1} K_{11} + α_{2}^{o l d} y_{2} K_{21} - α_{1}^{n e w} y_{1} K_{11} - α_{2}^{n e w} y_{2} K_{21} = - E_{1} - y_{1} K_{11} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} K_{21} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d}

同樣，當

0 \leq α_{2} \leq C

時：

b

由

α_{2}

來確定。

如果兩者同時滿足條件時,那麼兩者確定的 $b$ 是一致的，如果等式取到的話，說明點在支持向量上或者以內，此時 $b$ 取兩者之間。

下面來看SMO的啓發式搜索策略：

1）主動變量選擇違反KKT條件最嚴重的點，即優先判斷支持向量上的點是否滿足KKT條件，其次檢驗整個訓練樣本是否滿足KKT條件

由上面對 $α$ 與樣本點位置的分析可得到如下關係：

α_{i} = 0 \Leftrightarrow y_{i} g_{i} \geq 1 0 \leq α_{i} \leq C \Leftrightarrow y_{i} g_{i} = 1 α_{i} = C \Leftrightarrow y_{i} g_{i} \leq 1

由上面關係，可以知道哪些點在支持向量上，哪些點在支持向量外，哪些點在支持向量內，優先選擇支持向量上的點來判斷是否違反KKT條件，因爲這些點是違反KKT條件最嚴重的點，也是對超平面最有價值的點。

2）被動變量選擇在給定主動變量後，被動變量隨之變化範圍最大的點，由於前面導出 $α_{2}^{u n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{η}$ 所以被動變量選擇依賴於 $| E_{1} - E_{2} |$ 的大小，選擇最大的，加速計算速度。