【機器學習】支持向量機原理（四）SMO算法原理

時間 2020-12-30

原文原文鏈接

　　　在SVM的前三篇裏，我們優化的目標函數最終都是一個關於 $α$ 向量的函數。而怎麼極小化這個函數，求出對應的 $α$ 向量，進而求出分離超平面我們沒有講。本篇就對優化這個關於 $α$ 向量的函數的SMO算法做一個總結。

回顧SVM優化目標函數

　　　我們首先回顧下我們的優化目標函數：

\underset{α}{\underset{⏟}{m i n}} \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j}) - \sum_{i = 1}^{m} α_{i} s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 0 \leq α_{i} \leq C

　
　　　我們的解要滿足的KKT條件的對偶互補條件爲：

\begin{matrix} (1) & α_{i}^{*} (y_{i} (w^{T} x_{i} + b) - 1) = 0 \end{matrix}

　　　根據這個KKT條件的對偶互補條件，我們有：

\begin{matrix} (2) & α_{i}^{*} = 0 \Rightarrow y_{i} (w^{*} ∙ ϕ (x_{i}) + b) - 1) \geq 1 0 < α_{i}^{*} < C \Rightarrow y_{i} (w^{*} ∙ ϕ (x_{i}) + b) - 1) = 1 α_{i}^{*} = C \Rightarrow y_{i} (w^{*} ∙ ϕ (x_{i}) + b) - 1) \leq 1 \end{matrix}

　　　由於

w^{*} = \sum_{j = 1}^{m} α_{j}^{*} y_{j} ϕ (x_{j})

，我們令

g (x) = w^{*} ∙ ϕ (x) + b = \sum_{j = 1}^{m} α_{i}^{*} y_{j} K (x, x_{j}) + b^{*}

，則有：

\begin{matrix} (3) & α_{i}^{*} = 0 \Rightarrow y_{i} g (x_{i}) \geq 1 0 < α_{i}^{*} < C \Rightarrow y_{i} g (x_{i}) = 1 α_{i}^{*} = C \Rightarrow y_{i} g (x_{i}) \leq 1 \end{matrix}

SMO算法的基本思想

　　　上面這個優化式子比較複雜，裏面有m個變量組成的向量 $α$ 需要在目標函數極小化的時候求出。直接優化時很難的。SMO算法則採用了一種啓發式的方法。它每次只優化兩個變量，將其他的變量都視爲常數。由於 $\sum_{i = 1}^{m} α_{i} y_{i} = 0$ .假如將 $α_{3}, α_{4}, . . ., α_{m}$ 固定，那麼 $α_{1}, α_{2}$ 之間的關係也確定了。這樣SMO算法將一個複雜的優化算法轉化爲一個比較簡單的兩變量優化問題。
　　　
　　　爲了後面表示方便，我們定義 $K_{i j} = ϕ (x_{i}) ∙ ϕ (x_{j})$
　　　
　　　由於 $α_{3}, α_{4}, . . ., α_{m}$ 都成了常量，所有的常量我們都從目標函數去除，這樣我們上一節的目標優化函數變成下式：

\begin{aligned} \underset{α_{1}, α_{2}}{\underset{⏟}{m i n}} \frac{1}{2} K_{11} α_{1}^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{1} y_{2} K_{12} α_{1} α_{2} - (α_{1} + α_{2}) + y_{1} α_{1} \sum_{i = 3}^{m} y_{i} α_{i} K_{i 1} \\ (1) & + y_{2} α_{2} \sum_{i = 3}^{m} y_{i} α_{i} K_{i 2} \\ (2) & s . t . α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{m} y_{i} α_{i} = 常 數 ς \\ (3) & 0 \leq α_{i} \leq C i = 1, 2 \end{aligned}

SMO算法目標函數的優化

　　　本部分的總體思路：首先將目標函數看作是一個關於 $α_{1}, α_{2}$ 的二元二次函數 $W (α_{1}, α_{2})$ ，然後通過條件 $α_{1} y_{1} + α_{2} y_{2} = ς$ 將目標函數轉化爲一個關於 $α_{2}$ 的一元二次函數 $W (α_{2})$ ，我們的最終目標是求出 $W (α_{2})$ 在參數 $α_{2}$ 可行域範圍內的函數最小值。
　　下文第一部分先求出 $W (α_{2})$ 的極值點 $α_{2}^{n e w, u n c l i p p e d}$ 。下文第二部分根據約束條件
( $α_{1} y_{1} + α_{2} y_{2} = ς, 0 \leq α_{i} \leq C i = 1, 2$ ）求出 $α_{2}$ 的可行域。下文第三部分，分類討論一元二次函數 $W (α_{2})$ 的最優解 $α_{2}^{*}$ 在 $α_{2}$ 的可行域邊界取得還是在極值點取得。第四部分通過 $α_{1}, α_{2}$ 的關係，由 $α_{2}$ 求出 $α_{1}$ .

1. 不考慮約束條件（ $α_{1} y_{1} + α_{2} y_{2} = ς, 0 \leq α_{i} \leq C i = 1, 2$ ），對目標函數求極值點

　　　首先我們的目標函數是一個二元二次函數：

\begin{aligned} (4) & W (α_{1}, α_{2}) & = \frac{1}{2} K_{11} α_{1}^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{1} y_{2} K_{12} α_{1} α_{2} - (α_{1} + α_{2}) \\ (5) & + y_{1} α_{1} \sum_{i = 3}^{m} y_{i} α_{i} K_{i 1} + y_{2} α_{2} \sum_{i = 3}^{m} y_{i} α_{i} K_{i 2} \\ (6) & = \frac{1}{2} K_{11} α_{1}^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{1} y_{2} K_{12} α_{1} α_{2} - (α_{1} + α_{2}) + y_{1} α_{1} v_{1} + y_{2} α_{2} v_{2} \end{aligned}

其中

\begin{matrix} (4) & {\begin{cases} v_{i} = \sum_{j = 3}^{m} y_{j} α_{j} K_{i j} = g (x_{i}) - \sum_{j = 1}^{2} y_{j} a_{j} k_{i j} - b, i = 1, 2 \\ g (x) = w ∙ ϕ (x) + b = \sum_{j = 1}^{m} α_{i} y_{j} K (x, x_{j}) + b \end{cases} \end{matrix}

　　　由於 $α_{1} y_{1} + α_{2} y_{2} = ς$ ，並且 $y_{i}^{2} = 1$ ，可以得到用 $α_{2}$ 表達 $α_{1}$ 的式子：

\begin{aligned} (7) & α_{1} = y_{1} (ς - α_{2} y_{2}) \end{aligned}

　
　　　將上式帶入我們的目標優化函數，就可以消除

α_{1}

，得到僅僅包含

α_{2}

的式子爲：

\begin{aligned} (8) & W (α_{2}) & = \frac{1}{2} K_{11} (ς - a_{2} y_{2})^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{2} K_{12} (ς - a_{2} y_{2}) α_{2} - (y_{1} (ς - α_{2} y_{2}) + α_{2}) \\ (9) & + (ς - a_{2} y_{2}) v_{1} + y_{2} α_{2} v_{2} \end{aligned}

　
　
　　　顯然

W (α_{2})

是一個一元二次方程，最優解

α_{2}^{*}

只能是約束條件（

0 \leq α_{i} \leq C

）規定的可行域的邊界值，或者是

W (α_{2})

的極值點。現在我們先對其求極值點，即對

α_{2}

求導並令爲0得：

\begin{aligned} (10) & \frac{\partial W (α_{2})}{\partial α_{2}} & = (K_{11} + K_{22} - 2 K_{12}) α_{2} - K_{11} ς y_{2} + K_{12} ς y_{2} + y_{1} y_{2} - 1 \\ (5) & - v_{1} y_{2} + v_{2} y_{2} = 0 \end{aligned}

　　
　　　這時候我們定義

E_{i}

表示預測值

g (x_{i})

與真實值

y_{i}

之差：

\begin{aligned} (6) & E_{i} = g (x_{i}) - y_{i} \end{aligned}

　　　　　
　　　這時我們記優化前的解爲

α_{1}^{o l d}, α_{2}^{o l d}

，優化後的解爲

α_{1}^{n e w}, α_{2}^{n e w}

，由約束條件

\sum_{i = 1}^{m} y_{i} α_{i} = 0

，有

α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} = α_{1}^{n e w} y_{1} + α_{1}^{n e w} y_{2} = ς

，即

\begin{aligned} (7) & α_{1}^{n e w} y_{1} + α_{1}^{n e w} y_{2} = ς \end{aligned}

　
進行下一步化簡，將式子（4）（6）（7）代入式子（5），此時求解出的

α_{2}^{n e w}

未考慮約束條件（

0 \leq α_{i} \leq C

），先記爲

α_{2}^{n e w, u n c l i p p e d}

：

\begin{aligned} (8) & (K_{11} + K_{22} - 2 K_{12}) α_{2}^{n e w, u n c l i p p e d} = (K_{11} + K_{22} - 2 K_{12}) α_{2}^{o l d} + y_{2} (E_{1} - E_{2}) \end{aligned}

　
　　　我們終於得到了

α_{2}^{n e w, u n c l i p p e d}

的表達式：

\begin{aligned} (9) & α_{2}^{n e w, u n c l i p p e d} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{K_{11} + K_{22} - 2 K_{12}} \end{aligned}

2. 由約束條件（ $α_{1} y_{1} + α_{2} y_{2} = ς, 0 \leq α_{i} \leq C i = 1, 2$ ）求出 $α_{2}$ 的可行域　　　

　　　上面求出的 $α_{2}^{n e w, u n c l i p p e d}$ 沒考慮到的約束條件爲：

{\begin{cases} 0 \leq α_{i = 1, 2} \leq C \\ α_{1} y_{1} + α_{2} y_{2} = ς \end{cases}

　　
　　　在二維平面上直觀表達上述兩個約束條件：
　　　

　　　
　　　根據式子

α_{1} y_{1} + α_{2} y_{2} = ς

，和

y_{1}, y_{2}

只能取值

+ 1 或 - 1

，共有四種情況：
　　　
（1）當

y_{1} = 1, y_{2} = 1

，此時的表達式爲

α_{1} y_{1} + α_{2} y_{2} = ς

，那麼對應上圖中的右邊情況。根據

ς

的不同取值，我們可以分爲下面幾種情況來求

α_{2}

的可行域：

$ς < 0$ ，因爲 $0 \leq α_{i} \leq C$ ，所以此時 $α_{1} y_{1} + α_{2} y_{2} = ς$ 與方形區域一定沒有任何交集，所以此時 $α_{2}$ 的可行域爲空集.
$ς = 0$ ，此時 $α_{1} y_{1} + α_{2} y_{2} = 0$ ，此時與方形區域的交點就是(0,0)，那麼可行域就是 $α_{2} = 0$ .
$0 \leq ς \leq C$ 時，此時對應上圖中右邊的靠下的那種直線的情況，所以根據直線和方形區域的相交情況，此時可以求出 $α_{2}$ 的可行區間爲 $[0, ς]$ ，即 $[0, α_{1} + α_{2}]$ .
當 $C \leq ς \leq 2 C$ 時，可以求出此時對應上圖右邊情況靠上的那種直線，所以此時可以求出的可行區間爲 $[ς - C, C] ，即 [α_{1} + α_{2} - C, C]$
當 $ς \geq 2 C$ 時，可行域爲空寂，且這種情況也不會發生。

綜上所述，當 $y_{1} = 1 且 y_{2} = 1$ 時，此時的 $α_{2}$ 可行域在存在的情況下（即不考慮 $ς < 0 、 ς \geq 2 C$ ），其實可以這樣表示它的區間：

\begin{aligned} [m a x (0, α_{1} + α_{2} - C), m i n (C, α_{1} + α_{2})] \end{aligned}

　
（2）當

y_{1} = - 1 且 y_{2} = - 1

時，此時的表達式是

α_{1} + α_{2} = - ς

，那麼首先此時的

ς \leq 0

，此時的各種分類其情況和上面的（1）類似。

（3）當 $y_{1} = 1 且 y_{2} = - 1$ 時，此時的表達式是 $α_{1} - α_{2} = ς$ ，根據 $ς$ 的不同取值，我們可以分爲下面幾種情況來求 $α_{2}$ 的可行域：

$ς > C 或者 ς < - C$ 時，此時直線與方形區域沒有交點，所以此時 $α_{2}$ 可行域爲空集.
$0 < ς \leq C$ 時，此時對應上面的左圖中的靠下的那種直線的情況，此時可以計算出 $α_{2} 的可行域为 [0 ， C - α_{1} + α_{2}]$ .
當 $- C \leq ς \leq 0$ 時，此時對應左圖中靠上的那種直線的情況，此時可計算出 $a l p h a_{2} 的可行域为 [α_{2} - α_{1}, C]$

綜上所述， $α_{2} 的可行域为 [m a x (0, α_{1} - α_{2}), m i n (C, C - α_{2} + α_{2})]$

（4）當 $y_{1} = - 1 且 y_{2} = 1$ 時，情況和（3）類似。

我們設 $α_{2}$ 的可行域爲 $α_{2} \in [L, H]$ ，結合上述（1）~（4）種情況，我們得出不同情況下 $α_{2}$ 可行域的邊界值L、H：

$当 y_{1} \neq y_{2} 时， L = m a x （ 0, α_{2}^{o l d} - α_{1}^{o l d} ）； H = m i n (C, C + α_{2}^{o l d} - α_{1}^{o l d})$
$当 y_{1} = y_{2} 时， L = m a x （ 0, α_{1}^{o l d} + α_{2}^{o l d} - C ）； H = m i n (C, α_{2}^{o l d} + α_{1}^{o l d})$

3. 對 $α_{2}^{n e w, u n c l i p p e d}$ 進行修剪　

　　　好了，目前爲止我們手頭上有一元二次函數 $W (α_{2})$ 的極值點 $α_{2}^{n e w, u n c l i p p e d}$ ，和 $α_{2}$ 的可行域的邊界值L，H。
　　　下文根據 $α_{2}$ 的可行域和一元二次函數 $W (α_{2})$ 的開口方向，討論 $W (α_{2})$ 在何處取得最小值，共分爲3種情況：

（1）無論一元二次函數 $W (α_{2})$ 的開口向上還是向下，只要極值點不在可行域內，該函數的最小值就在可行域的邊界值取得，這種情況我們只需要比較 $W (L) 和 W (H)$ 的大小，然後取小者就是函數的最小值。

（2）如果 $W (α_{2})$ 的開口向上，且極值點在可行域內，則函數最小值爲極值點。
　　　
（3）如果 $W (α_{2})$ 的開口向下，該函數的最小值就在可行域的邊界值取得，這種情況我們只需要比較 $W (L) 和 W (H)$ 的大小，然後取小者就是函數的最小值。

　　　綜合上述三種情況，就可以對 $α_{2}^{n e w, u n c l i p p e d}$ 進行修剪了，最優解就可以記爲 $α_{2}^{n e w}$ ：

α_{2}^{n e w} = {\begin{cases} H & α_{2}^{n e w, u n c l i p p e d} > H \\ α_{2}^{n e w, u n c l i p p e d} & L \leq α_{2}^{n e w, u n c l i p p e d} \leq H \\ L & α_{2}^{n e w, u n c l i p p e d} < L \end{cases}

4. 通過 $α_{2}^{n e w}$ 求解 $α_{1}^{n e w}$ 　

　　　由 $α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} = α_{1}^{n e w} y_{1} + α_{2}^{n e w} y_{2} = ς$ 得：

\begin{aligned} (11) & α_{1}^{n e w} = α_{1}^{o l d} + y_{1} y_{2} (α_{2}^{o l d} - α_{2}^{n e w}) \end{aligned}

SMO算法兩個變量的選擇

1.第一個變量的選擇

　　　第一個變量的選擇稱爲外循環，首先遍歷整個樣本集，選擇違反KKT條件的 $α_{i}$ 作爲第一個變量，接着依據相關規則選擇第二個變量(見下面分析),對這兩個變量採用上述方法進行優化。當遍歷完整個樣本集後，遍歷非邊界樣本集 $(0 < α_{i} < C)$ 中違反KKT的 $α_{i}$ 作爲第一個變量，同樣依據相關規則選擇第二個變量，對此兩個變量進行優化。當遍歷完非邊界樣本集後，再次回到遍歷整個樣本集中尋找，即在整個樣本集與非邊界樣本集上來回切換，尋找違反KKT條件的 $α_{i}$ 作爲第一個變量。直到遍歷整個樣本集後，沒有違反KKT條件 $α_{i}$ ，然後退出。
　　　邊界上的樣本對應的 $α_{i} = 0$ 或者 $α_{i} = C$ ，在優化過程中很難變化。然而非邊界樣本 $(0 < α_{i} < C)$ 會隨着對其他變量的優化會有大的變化。
　　　

2.第二個變量的選擇

　　　SMO稱第二個變量的選擇過程爲內循環，假設在外循環中找個第一個變量記爲 $α_{1}$ ，第二個變量的選擇希望能使 $α_{2}$ 有較大的變化，由於 $α_{1}$ 是依賴於 $| E_{1} - E_{2} |$ ，當 $E_{1}$ 爲正時，那麼選擇最小的 $E_{i}$ 作爲 $E_{2}$ 。如果 $E_{1}$ 爲負，選擇最大 $E_{i}$ 作爲 $E_{2}$ ，通常爲每個樣本的 $E_{i}$ 保存在一個列表中，選擇最大的 $| E_{1} - E_{2} |$ 來近似最大化步長。
　　　
　　　有時按照上述的啓發式選擇第二個變量，不能夠使得函數值有足夠的下降，這時按下述步驟:

首先在非邊界集上選擇能夠使函數值足夠下降的樣本作爲第二個變量；
如果非邊界集上沒有，則在整個樣本集上選擇第二個變量；
如果整個樣本集依然不存在，則重新選擇第一個變量；

計算閾值 $b^{n e w}$ 、差值 $E_{i}$

　　　每完成對兩個變量的優化後，要對b的值進行更新，因爲b的值關係到預測值 $g (x)$ 的計算，即關係到下次優化時 $E_{i}$ 的計算。　

求解 $b^{n e w}$ 的4種情況　　

　　　1. 如果 $0 < α_{1}^{n e w} < C$ ，由KKT條件 $y_{1} (w^{T} x_{1} + b) = 1$ ，且 $y_{i}^{2} = 1$ ，得到 $\sum_{i = 1}^{m} α_{i} y_{i} K_{i 1} + b = y_{i}$ ，所有有：

\begin{aligned} (12) & b_{1}^{n e w} = y_{1} - \sum_{i = 3}^{m} α_{i} y_{i} K_{i 1} - α_{1}^{n e w} y_{1} K_{11} - α_{2}^{n e w} y_{2} K_{21} \end{aligned}

將式子（6）代入上式子，得：

\begin{aligned} (13) & b_{1}^{n e w} = - E_{1} - y_{1} K_{11} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} K_{21} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d} \end{aligned}

　　　2. 如果

0 < α_{2}^{n e w} < C

，則：

\begin{aligned} (14) & b_{2}^{n e w} = - E_{2} - y_{1} K_{12} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} K_{22} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d} \end{aligned}

　　　
　　　3. 如果

α_{1}, α_{2}

同時滿足

0 < α_{i}^{n e w} < C

，則：

\begin{aligned} (15) & b_{1}^{n e w} = b_{2}^{n e w} \end{aligned}

　　　　
　　　4. 如果

α_{1}, α_{2}

同時不滿足

0 < α_{1, 2}^{n e w} < C

，那麼

b_{1}^{n e w}

和

b_{2}^{n e w}

以及它們之間的數都是符合KKT條件的閾值，這時選擇它們的中點作爲

b^{n e w}

更新差值 $E_{i}$ 　

　　　根據式子(4),(6），得到：

\begin{aligned} (16) & E_{i} = g (x_{i}) - y_{i} = \sum_{j = 1}^{m} α_{i} y_{j} K (x, x_{j}) + b^{n e w} - y_{i} \end{aligned}

SMO算法總結

　　　輸入是m個樣本 $(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})$ ，其中 $x$ 爲 $n$ 維特徵向量。y爲二元輸出，值爲+1或-1。精度e.
　　　輸出值是近似解，向量 $α$ .
　　　
　　　1) 取初值 $α^{0} = 0, k = 0$ ， $α$ 的上標表示迭代輪數， $k$ 表示當前迭代爲第 $k$ 輪.
　　　
　　　2) 按照上文的方法依次選取兩個參數 $α_{1}^{k}, α_{2}^{k}$ ，求出新的 $α_{2}^{k + 1, u n c l i p p e d}$ .