【機器學習】支持向量機詳解，附帶案例

時間 2019-12-04

標籤機器學習支持向量詳解附帶案例简体版

原文原文鏈接

前言

$\quad\quad$ 支持向量機基本思想就是間隔最大化，看上去很簡單，可是要想理解它並非很容易。本篇將由基本概念出發，對公式進行推導，而後經過一些案例加以展現來介紹支持向量機。本篇篇幅比較長，需耐心仔細看完，適當動手跟着推導及代碼實現。html

因爲博主也在學習中，因此本篇中不免會有些理解錯誤的地方，還望你們賜教，共同窗習。git

本篇的代碼可見：Githubgithub

1、`SVM` 涉及的概念

$\quad\quad$ 支持向量機（support vector machines，SVM）是一種二類分類模型。它的 基本模型 是定義在特徵空間上的間隔最大的線性分類器，支持向量機的學習策略就是間隔最大化，可形式化爲求解凸二次規劃的問題。web

一、分類任務

$\quad\quad$ 分類任務就是肯定對象屬於哪一個預約義的目標類。分類任務的輸入數據是記錄的集合，每條記錄也稱爲實例或樣例，用元祖 $(x,y)$ 表示，其中 $x$ 是屬性的集合， $y$ 是類標記（也稱目標屬性）。在迴歸模型中，目標屬性值是連續的；而在分類模型中，目標屬性時離散的。算法

考慮二分類任務，其目標屬性爲 $y \in \{0,1\}$ ，而線性迴歸模型參數的預測值 $z = w^Tx+b$ 是實值，因而咱們須要將實值 $z$ 轉換爲目標屬性值 0 或 1 。固然最理想的就是單位階躍函數，可是單位階躍函數不連續，因而使用 sigmoid函數 做爲替代函數。緩存

sigmoid函數 表達式以下：
$g(z) = \frac{1}{1 + e^{-z}}$ app

Logistic迴歸 目的是從特徵中學習出一個 0/1 分類模型，而這個分類模型是將特徵的線性組合做爲自變量，因爲自變量的取值範圍是 $(-\infty, + \infty)$ 。所以，使用 sigmoid函數 將自變量映射到 $(0,1)$ 上，映射後的值被認爲是屬於 $y = 1$ 的機率。dom

假設函數爲：
$h_\theta(x) = g(\theta^Tx) = \frac{1}{1 + e^{-\theta^Tx}}$ ide

根據 sigmoid函數 的特性，假設：
$p(y=1|x;\theta) = h_{\theta}(x)$
$p(y=0|x;\theta) =1 - h_{\theta}(x)$ svg

上式表示，已知樣本 $x$ 和參數 $\theta$ 的狀況下，樣本 $x$ 屬於正樣本 ( $y = 1$ )和負樣本( $y = 0$ )的條件機率。若 $h_\theta(x) > 0.5$ 則屬於正樣本，反之屬於負樣本。

進一步的， $h_\theta(x)$ 只和 $\theta^Tx$ 有關， $\theta^Tx>0$ ，那麼 $h_\theta(x) > 0.5$ ，而 $g(z)$ 只是用來映射的，真實的類別決定權在於 $\theta^Tx$ 。當 $\theta^Tx \gg 0$ 時， $h_\theta(x)$ 趨於1，反之趨於0。若是咱們只從 $\theta^Tx$ 出發，那麼模型應該儘量的讓訓練數據中 $y =1$ 的特徵 $\theta^Tx \gg 0$ ，而 $y = 0$ 的特徵 $\theta^Tx \ll 0$ 。

Logistic迴歸 就是要學習獲得參數 $\theta$ ，使得正例的特徵遠遠大於0，負例的特徵遠遠小於0，並且要在所有訓練數據上達到這個目標。

接下來，嘗試把 Logistic迴歸 作個變形：

首先將目標屬性 $y \in \{0,1\}$ 替換爲 $y \in \{-1,1\}$ ；
將 $\theta^Tx = \theta_0 + \theta_1 x_1+ \theta_2 x_2+...+ \theta_n x_n$ 中 $\theta_0$ 替換爲 $b$ ；
最後將 $\theta_1 x_1+ \theta_2 x_2+...+ \theta_n x_n$ 替換爲 $w^Tx = \theta_1 x_1+ \theta_2 x_2+...+ \theta_n x_n$ ；
獲得 $\theta^Tx =w^Tx +b$ 。

就是說，除了 $y$ 由 0 變爲 -1，線性分類函數跟 Logistic迴歸 的形式化表示 $h_\theta(x) = g(\theta^Tx) = g(w^Tx +b)$ 沒區別。

將假設函數 $h_{w,b}(x) = g(w^Tx+b)$ 中的 $g(z)$ 作一個簡化，將其映射到 $y = -1$ 和 $y = 1$ 上，映射以下：
$g(z) = \begin{cases} 1,& z \geqslant 0 \\ -1, & z < 0 \end{cases}$

二、線性分類器

線性可分數據集：存在某個超平面S可以將數據集的正實例和負實例徹底劃分到超平面的兩側，則稱爲線性可分數據集；不然，線性不可分。

如上圖，這些數據就是線性可分的，因此能夠用一條直線將這兩類數據分開，二維中是一條直線，在多維中就是一個超平面。

這個超平面能夠用分類函數 $f(x) = w^Tx + b$ 表示，在進行分類時，將 $x$ 代入 $f(x)$ 中，若是 $f(x) = 0$ 表示數據點在超平面上； $f(x) > 0$ 對應 $y =1$ 的數據點； $f(x) < 0$ 對應 $y=-1$ 的數據點。

三、`SVM` 在作什麼？

$\quad\quad$ 假定給定數據如上圖，圓的爲正類，方的爲負類，要想經過一個劃分超平面（這裏是二維，因此是條直線）將不一樣類別的樣本分開。從圖中咱們就能夠看出，能將訓練樣本分開的劃分超平面可能有不少，可是咱們應該去選擇哪個呢？

$\quad\quad$ 直觀上，咱們應該選擇中間紅色的那個，由於它對於訓練樣本局部擾動的「容忍」性最好，好比，訓練集外的樣本可能比圖中的樣本更接近兩類的劃分超平面，這將使許多劃分超平面出現錯誤，而紅色的超平面受到的影響是最小的，也就是說，這個劃分超平面的分類結果是最魯棒的，對未知示例的泛化能力最強。

$\quad\quad$ 找出這個劃分超平面就成了關鍵，以前咱們介紹的感知機（點擊連接）也是尋找這個超平面，將訓練集劃分開，可是感知機利用誤分類最小的策略，求得劃分超平面，並且解有無窮多個；在全部的劃分超平面中，有一個平面是最好的，它能夠儘量地讓全部的樣本點都離該劃分超平面最遠，這就是 SVM 要作的。

四、函數間隔

如圖，有三個實例 $A、B、C$ 均在劃分超平面的正類一側，預測它們的類，點 $A$ 距離超平面較遠，若預測爲正類，就比較確信預測是正確的；點 $C$ 距離超平面較近，若預測爲正類就不那麼確信了；點 $B$ 介於 $A、C$ 之間，預測其爲正類的確信度也在 $A、C$ 之間。

通常來講，一個點距離超平面的遠近能夠相對地表示分類預測的確信程度。

咱們注意到：當一個點 $x$ 被正確預測時，那麼 $wx+b$ 的符合與類標記 $y$ 的符號相同。

因此可用 $y(w\cdot x+b)$ 來表示分類的正確性及確信度。

對於給定的訓練數據集 $T$ 和超平面 $(w,b)$ ：
（1）定義超平面 $(w,b)$ 關於樣本點 $(x_i,y_i)$ 的 函數間隔 爲：

$\delta_i = y_i(w \cdot x_i+b)$

（2）定義超平面 $(w,b)$ 關於訓練數據集 $T$ 的函數間隔爲超平面 $(w,b) $關於 $T$ 中全部樣本點 $(x_i,y_i)$ 的函數間隔之最小值，即：

$\delta = \min_{i = 1,2,...,N}\delta_i$

函數間隔能夠表示分類預測的正確性和確信度

五、幾何間隔（點到超平面距離）

樣本空間中任意點 $x$ 到超平面 $(w,b)$ 的距離可寫爲：

$r = \frac{|w^Tx+b|}{||w||}$

補充：

點 $x_0$ 到超平面 $S:wx+b=0$ 的距離 $d$ :

設 $x_0$ 在 $S$ 上面的投影爲 $x_1$ ，則 $wx_1+b=0$ ；
由向量 $\vec{x_0x_1}$ 與 $S$ 平面的法向量平行：
$|w \cdot \vec{x_0x_1}| = \sqrt{(w^1)^2 + (w^2)^2+...+(w^N)^2}d = ||w||d$
$||w||爲L_2範數$
又：
$w \cdot \vec{x_0x_1} = w^1(x_0^1-x_1^1)+w^2(x_0^2-x_1^2)+...+w^N(x_0^N-x_1^N)$
$=w^1x_0^1+w^2x_0^2+...+w^Nx_0^N-(w^1x_1^1+w^2x_1^2+...+w^Nx_1^N)$
又有： $w \cdot x + b = 0$
$=w^1x_0^1+w^2x_0^2+...+w^Nx_0^N-(-b)$
故：
$||w||d = |w \cdot x_0 + b|$
$d =\frac{|w \cdot x_0 + b|}{||w||}$

對於給定的訓練數據集 $T$ 和超平面 $(w,b)$ ：
（1）定義超平面 $(w,b)$ 關於樣本點 $(x_i,y_i)$ 的幾何間隔爲：

$\gamma_i = y_i(\frac{w}{||w||} \cdot x_i+\frac{b}{||w||})$

（2）定義超平面 $(w,b)$ 關於訓練數據集 $T$ 的幾何間隔爲超平面 $(w,b)$ 關於 $T$ 中全部樣本點 $(x_i,y_i)$ 的幾何間隔之最小值，即：

$\gamma = \min_{i = 1,2,...,N}\gamma_i$

幾何間隔與函數間隔的關係：
$\gamma = \frac{\delta}{||w||}$

以上內容可參考：點到直線的距離

六、支持向量

$\quad\quad$ 訓練數據集的樣本點中與分離超平面距離最近的樣本點的實例稱爲支持向量，即圖中在黑色線上的實例點。

七、拉格朗日對偶性

$\quad\quad$ 在約束最優化問題中，經常利用拉格朗日對偶性將原始問題轉化爲對偶問題。經過求解對偶問題而獲得原始問題的解。

$\quad\quad$ 支持向量機和最大熵模型都用用到，下面咱們來簡單介紹下拉格朗日對偶性的主要概念和結果。

1.原始問題：

假設 $f(x)，c_i(x)，h_j(x)$ 是定義在 $R^n$ 上的連續可微函數，考慮約束最優化問題：
$\min_{x \in R^n} f(x)$
$s.t. c_i(x) \leqslant 0，i = 1,2,...,k$
$h_j(x) = 0，j = 1,2,...,l$

稱此約束最優化問題爲原始最優化問題或原始問題。

首先，引進廣義拉格朗日函數：

$L(x,\alpha,\beta) = f(x) +\sum_{i=1}^{k}\alpha_ic_i(x)+\sum_{j=1}^{k}\beta_jh_j(x)$

這裏， $x=(x^{(1)}，x^{(2)}，。。。，x^{(n)})^T \in R^n， \alpha_i， \beta_j$ 是拉格朗日乘子， $\alpha_i \geqslant 0$ 。

那麼原始問題就是：
$\theta_p(x)=\max_{\alpha,\beta:\alpha_i \geqslant0} L(x,\alpha,\beta)$

假設給定某個 $x$ ，若是 $x$ 違反了約束條件，即存在某個 $i$ 使得 $c_i(w)>0$ 或者存在某個 $j$ 使得 $h_j(w) \neq 0$ ，那麼就有：
$\theta_p(x)=\max_{\alpha,\beta:\alpha_i \geqslant0} L(x,\alpha,\beta) = +\infty$

由於若某個 $i$ 使得 $c_i(w)>0$ ，則可令 $\alpha_i \rightarrow +\infty,$ 若某個 $j$ 使得 $h_j(w) \neq 0$ ，則可令 $\beta_j$ 使 $\beta_jh_j(x) \rightarrow +\infty$ ，而其他各 $\alpha_i,\beta_j$ 均爲0

相反地，若是知足約束條件，則 $\sum_{i=1}^{k}\alpha_ic_i(x) \leqslant 0，\sum_{j=1}^{k}\beta_jh_j(x)=0$ ，因爲 $f(x)$ 加上一個小於等於的數，最大值就是加上0，因此 $\theta_p(x) = f(x)$

綜上：
$\theta_p(x) = \begin{cases} f(x), & x知足原始問題約束 \\ +\infty, & 其餘\end{cases}$

因此，若是考慮極小化問題
$\min_x \theta_p(x) = \min_x \max_{\alpha,\beta : \alpha_i \geqslant 0}L(x,\alpha,\beta)$

它與原始問題最優化問題等價的，即他們有相同的解。這也稱爲廣義拉格朗日函數的極小極大問題。

2.對偶問題：
定義：
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)$

再考慮極大化上式，即

$\max_{\alpha,\beta : \alpha_i \geqslant 0}\theta_D(\alpha,\beta)=\max_{\alpha,\beta : \alpha_i \geqslant 0}\min_xL(x,\alpha,\beta)$

此稱爲廣義拉格朗日函數的極大極小問題。

能夠將廣義拉格朗日函數的極大極小問題表示爲約束最優化問題：
$\max_{\alpha,\beta }\theta_D(\alpha,\beta)=\max_{\alpha,\beta }\min_xL(x,\alpha,\beta)$
$s.t. \alpha_i \geqslant 0 ，i =1,2,...,k$
稱爲原始問題的對偶問題。

補充：

若原始問題和對偶問題都有最優解，則：
$d^* = \max_{\alpha,\beta;\alpha_i \geqslant 0} \min_x L(x,\alpha, \beta) \leqslant \min_x \max_{\alpha,\beta;\alpha_i \geqslant 0} L(x, \alpha, \beta) = p^*$

對任意的 $\alpha, \beta$ 和 $x$ ，有：
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta) \leqslant L(x,\alpha,\beta) \leqslant \max_{\alpha,\beta:\alpha_i \geqslant0} L(x,\alpha,\beta) = \theta_p(x)$
即：
$\theta_D(\alpha,\beta) \leqslant \theta_p(x)$
因爲原始問題和對偶問題都有最優解，因此：
$\max_{\alpha,\beta:\alpha_i \geqslant0}\theta_D(\alpha,\beta) \leqslant \min_x\theta_p(x)$
即：
$d^* \leqslant p^*$

$\quad\quad$ 在知足某些條件下，原始問題和對偶問題的最優解相等，即 $d^* = p^*$ ，這是能夠經過解對偶問題替代求原始問題，每每原始問題求解最優解比較困難，可是求它的對偶問題比較容易。

$\quad\quad$ 假設函數 $f(x)$ 和 $c_i(x)$ 是凸函數， $h_j(x)$ 是仿射函數，而且不等式約束 $c_i(x)$ 是嚴格可行的，則 $x^*$ 和 $\alpha^*,\beta^*$ 分別是原始問題和對偶問題的解的充分必要條件是 $x^*,\alpha^*,\beta^*$ 知足 KTT 條件：

$\nabla_xL(x^*,\alpha^*,\beta^*) = 0$
$\alpha_i^*c_i(x^*) = 0, \quad\quad i=1,2,...,k$
$c_i(x^*) \leqslant 0, \quad\quad i=1,2,...,k$
$\alpha_i^* \geqslant 0, \quad\quad i=1,2,...,k$
$h_j(x^*) = 0, \quad\quad j=1,2,...,l$

$\quad\quad$ 以上介紹了理解支持向量機須要的基本概念，接下來咱們將分別介紹線性可分支持向量機、線性支持向量機和線性不可分支持向量機。

3.拉格朗日乘子法幫助理解

待優化目標：
$y=0.6 * (\theta_1 +\theta_2)^2 - \theta_1 * \theta_2$
約束條件：
$x^2 - x + 1=0 \quad\quad x \in [-4,4]$

上圖中曲面爲待優化目標，紅點造成的曲線即是約束條件，表示要在約束條件下找到目標函數的最優解（最小值）

代碼可見：01_拉格朗日乘子法.py

2、線性可分支持向量機

$\quad\quad$ 咱們知道，支持向量機的學習目標是在特徵空間找到一個分離超平面，能將實例分到不一樣的類。

$\quad\quad$ 當訓練數據集線性可分時，存在無窮個分離超平面將兩類數據正確分開。感知機利用誤分類最小化的策略，求得分離超平面，不過這時的解有無窮多個。線性可分支持向量機利用間隔最大化求最優分離超平面，而且解是惟一的。

$\quad\quad$ 那麼咱們如何使得間隔最大化並求得分離超平面呢？

一、間隔最大化（硬間隔）

$\quad\quad$ 間隔最大化的直觀解釋是：對訓練數據集找到幾何間隔最大的超平面意味着以充分大的確信度對訓練數據進行分類。也就是說，不只將正負實例點分開，而求對最難分的實例點（離超平面最近的點）也有足夠大的確信度將它們分開，這樣的超平面對於未知的新實例有很好的分類預測能力。

$\quad\quad$ 下面咱們考慮如何求得一個幾何間隔最大的分離超平面，即最大間隔分離超平面。咱們能夠將這個問題表示爲下面的約束最優化問題：
$\max_{w,b} \quad \gamma \\ s.t. \quad y_i(\frac{w}{||w||} \cdot x_i + \frac{b}{||w||}) \geqslant \gamma, \quad i = 1,2,...,N$

即咱們但願最大化超平面 $(w,b)$ 關於訓練數據集的幾何間隔 $\gamma$ ；
約束條件表示：超平面關於每一個樣本點的幾何間隔至少是 $\gamma$

進一步地，咱們考慮幾何間隔和函數間隔的關係。
$\gamma =\frac{\delta}{||w||}$
此處： $\delta$ 爲函數間隔 $y_i(w\cdot x_i +b)$

這是可將上面的約束問題改成：

$\max_{w,b} \quad \frac{\delta}{||w||} \\ s.t. \quad y_i(w\cdot x_i +b) \geqslant \delta, \quad i = 1,2,...,N$

這是咱們須要注意到，函數間隔 $\delta$ 的取值並不影響最優化問題的解。

這裏，假設咱們將 $w,b$ 按比例改成 $\lambda w，\lambda b$ ，這是函數間隔變爲 $y_i(\lambda w \cdot x_i + \lambda b) = \lambda \delta$ ；
此時，函數間隔的改變並無改變上面的約束，對目標函數的優化也沒用影響，也就是說，它產生一個等價的最優化問題；
這樣，咱們就能夠把函數間隔 $\delta$ 特殊化，取 $\delta = 1$
將上面 $\delta = 1$ ，帶入原來最優化問題中，注意到最大化 $\frac{1}{||w||}$ 和最小化 $\frac{1}{2}||w||^2$ 是等價的。

咱們將獲得線性支持向量機學習的最優化問題：
$\min_{w,b} \quad \frac{1}{2}||w||^2 \\ s.t. \quad y_i(w\cdot x_i +b) - 1 \geqslant 0, \quad i = 1,2,...,N$

上面這個約束最優化問題是一個凸二次規劃的問題。

若是求出了約束最優化問題的解 $(w^*,b^*)$ ，那麼就能夠獲得最大間隔分離超平面 $w^* \cdot x+b^*=0$ 及分類決策函數 $f(x) = sign(w^* \cdot x+b^*)$ ，即線性可分支持向量機。

二、線性可分支持向量機學習算法——最大間隔法以下：

輸入：線性可分訓練數據集 $T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中， $x_i \in \mathcal{X} = R^n，y_i \in \mathcal{Y}=\{-1,+1\}，i=1,2,...,N$ ；
輸出：最大間隔分離超平面和分類決策函數。
（1）構造並求解約束最優化問題：
$\min_{w,b} \quad \frac{1}{2}||w||^2 \\ s.t. \quad y_i(w\cdot x_i +b) - 1 \geqslant 0, \quad i = 1,2,...,N$
求得最優解 $w^*,b^*$ ；
（2）由此獲得分離超平面：
$w^* \cdot x+b^*=0$
分類決策函數：
$f(x) = sign(w^* \cdot x+b^*)$

若訓練數據集線性可分，則可將訓練數據集中的樣本點徹底正確分開的最大間隔分離超平面存在且惟一。

咱們知道支持向量就是距離分離超平面最近的實例點。注意到上面約束問題，支持向量即是使約束條件等號成立的點，即：
$y_i(w\cdot x+b) - 1 =0$

在決定分離超平面時只有支持向量起做用，而其餘實例點並不起做用，若是移動支持向量將改變所求的解；可是若是在間隔邊界之外移動其餘實例點，甚至去掉這些點，則解是不會改變的。

三、對偶算法

$\quad\quad$ 爲了求解線性可分支持向量機的最優化問題，將原來的約束最優化問題做爲原始問題，應用拉格朗日對偶性，經過求解對偶問題獲得原始問題的最優解。

這樣作的有點：
對偶問題每每更容易求解
天然引入核函數，進而推廣到非線性分類問題（這在後面會介紹）

如今咱們就開始構建原始問題的對偶問題：

（1）首先構建拉格朗日函數
$L(w,b,\alpha) = \frac{1}{2}||w||^2-\sum_{i=1}^N \alpha_i[y_i(w \cdot x + b) - 1]$
其中， $\alpha_i \geqslant 0，\alpha = (\alpha_1,\alpha_2,...,\alpha_N)^T$ 爲拉格朗日乘子向量。

根據拉格朗日對偶性，原始問題的對偶問題是極大極小問題。

$\max_\alpha \min_{w,b} L(w,b,\alpha)$

即，須要先求 $L(w,b,\alpha)$ 對 $w,b$ 的極小，再求對 $\alpha$ 的極大。

（2）求 $\min_{w,b} L(w,b,\alpha)$

將拉格朗日函數 $L(w,b,\alpha)$ 分別對 $w,b$ 求偏導並令其等於0
$\nabla_wL(w,b,\alpha)=w-\sum_{i=1}^{N}\alpha_iy_ix_i=0 \\ \nabla_bL(w,b,\alpha)=0$
得：
$w=\sum_{i=1}^{N}\alpha_iy_ix_i \\ \sum_{i=1}^{N}\alpha_iy_i=0$
代入拉格朗日函數中，即得：
$L(w,b,\alpha) = \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j)-\sum_{i=1}^N\alpha_iy_i((\sum_{j=1}^N\alpha_jy_jx_j)\cdot x_i+b)+\sum_{i=1}^N\alpha_i \\ = -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j)+\sum_{i=1}^N\alpha_i$
即：
$\min_{w,b} L(w,b,\alpha)= -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j)+\sum_{i=1}^N\alpha_i$
（3）求 $\min_{w,b} L(w,b,\alpha)$ 對 $\alpha$ 的極大，便是對偶問題：
$\max_\alpha \quad -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j)+\sum_{i=1}^N\alpha_i \\ s.t. \quad \sum_{i=1}^{N}\alpha_iy_i=0 \\ \alpha_i \geqslant 0, \quad i=1,2,...,N$

將上式的目標函數由求極大轉換爲求極小，獲得等價的對偶最優化問題：
$\min_\alpha \quad \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j)-\sum_{i=1}^N\alpha_i \\ s.t. \quad \sum_{i=1}^{N}\alpha_iy_i=0 \\ \alpha_i \geqslant 0, \quad i=1,2,...,N$

對於線性可分訓練數據集，假設對偶最優化問題對 $\alpha$ 的解爲 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ ，能夠由 $\alpha^*$ 求得原始最優化問題對 $(w,b)$ 的解 $w^*,b^*$

上式能夠經過SMO算法求解，具體內容後面將介紹

存在如下定理：

假設 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 是對偶最優化問題的解，則存在下標 $j$ ，使得 $\alpha_j^* > 0$ ，並可求得原始最優化問題的解 $w^*,b^*$ ：
$w^* = \sum_{i=1}^N\alpha_i^*y_ix_i \\ b^* = y_j - \sum_{i=1}^N\alpha_i^*y_i(x_i \cdot x_j)$

至此，分離超平面能夠寫成：
$\sum_{i=1}^N\alpha_i^*y_i( x \cdot x_i)+b^* = 0$
分類決策函數能夠寫爲：
$f(x) = sign(\sum_{i=1}^N\alpha_i^*y_i( x \cdot x_i)+b^* )$

這就是說，分類決策函數只依賴於輸入 $x$ 和訓練數據集樣本輸入的內積。

四、線性可分支持向量機學習算法——對偶算法：

輸入：線性可分訓練數據集 $T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中， $x_i \in \mathcal{X} = R^n，y_i \in \mathcal{Y}=\{-1,+1\}，i=1,2,...,N$ ；
輸出：最大間隔分離超平面和分類決策函數。
（1）構造並求解約束最優化問題：
$\min_\alpha \quad \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j)-\sum_{i=1}^N\alpha_i \\ s.t. \quad \sum_{i=1}^{N}\alpha_iy_i=0 \\ \alpha_i \geqslant 0, \quad i=1,2,...,N$
求得最優解 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ ；
（2）計算：
$w^* = \sum_{i=1}^N\alpha_i^*y_ix_i$
並選擇 $\alpha^*$ 的一個正份量 $\alpha_j^* > 0$ ，計算：
$b^* = y_j - \sum_{i=1}^N\alpha_i^*y_i(x_i \cdot x_j)$
（3）求得分離超平面：
$\sum_{i=1}^N\alpha_i^*y_i( x \cdot x_i)+b^* = 0$
分類決策函數：
$f(x) = sign(\sum_{i=1}^N\alpha_i^*y_i( x \cdot x_i)+b^* )$

五、下面經過具體的數據，比較兩個算法的計算：

數據以下圖：正例點是 $x_1 = (3,3)^T,x_2 = (4,3)^T，負例點是x_3 = (1,1)^T$

問題：試求最大間隔分離超平面?

1.最大間隔法求解：

解：按照最大間隔法，根據訓練數據集構造約束最優化問題：
$\min_{w,b} \quad \frac{1}{2}(w_1^2+w_2^2) \\ s.t. \quad 3w_1+3w_2 + b \geqslant 0 \\ \quad \ \ \ \ \ \ 4w_1+3w_2 + b \geqslant 0 \\ \quad \ \ \ \ \ \ -1w_1-1w_2 - b \geqslant 0$
求得此最優化問題的解爲： $w_1=w_2=\frac{1}{2},b=-2$ 。因而最大間隔分離超平面爲：
$\frac{1}{2}x^{(1)}+\frac{1}{2}x^{(2)}-2 = 0$
其中， $x_1 = (3,3)^T 與 x_3 = (1,1)^T$ 是支持向量。

2.對偶算法求解：

解：根據所給數據，對偶問題是：
$\min_\alpha \quad \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j)-\sum_{i=1}^N\alpha_i \\ = \frac{1}{2}(18\alpha_1^2+25\alpha_2^2+2\alpha_3^2+42\alpha_1\alpha_2-12\alpha_1\alpha_3-14\alpha_2\alpha_3)-\alpha_1-\alpha_2-\alpha_3 \\ s.t. \alpha_1+\alpha_2-\alpha_3=0 \\ \alpha_i \geqslant 0, \quad i=1,2,3$
解這一最優化問題，將 $\alpha_3 = \alpha_1+\alpha_2$ 代入目標函數並記爲：
$s(\alpha_1,\alpha_2) = 4\alpha_1^2+\frac{13}{2}\alpha_2^2+10\alpha_1\alpha_2-2\alpha_1-2\alpha_2$
對 $\alpha_1,\alpha_2$ 求偏導數並令其爲0，易知 $s(\alpha_1,\alpha_2)$ 在點 $(\frac{3}{2},-1)^T$ 取極值，但該點不知足約束條件 $\alpha_2 \geqslant 0$ ，因此極小值應在邊界上達到。

當 $\alpha_1 = 0$ 時，最小值 $s(0, \frac{2}{13}) = -\frac{2}{13}$ ；當 $\alpha_2 = 0$ 時，最小值 $s(\frac{1}{4}，0) = -\frac{1}{4}$ 。因而， $s(\alpha_1,\alpha_2)$ 在 $\alpha_1=\frac{1}{4},\alpha_2=0$ 達到最小，此時 $\alpha_3 = \alpha_1+\alpha_2 = \frac{1}{4}$

這樣， $\alpha_1^*=\alpha_3^* = \frac{1}{4}$ 對應的實例點 $x_1,x_3$ 是支持向量，根據：
$w^* = \sum_{i=1}^N\alpha_i^*y_ix_i$
$b^* = y_j - \sum_{i=1}^N\alpha_i^*y_i(x_i \cdot x_j)$
計算得：
$w^* = \frac{1}{4}(1)(3,3)+\frac{1}{4}(-1)(1,1) = (\frac{1}{2},\frac{1}{2})\\ w_1^*=w_2^* = \frac{1}{2}$
取點 $x_1=(3,3)^T求b^*，此時j=1,y_j=1$
$b^* = 1 - [\frac{1}{4}(1)(x_1 \cdot x_1)+\frac{1}{4}(-1)(x_3 \cdot x_1)] \\ = 1-(\frac{1}{4}*18-\frac{1}{4}*6)= -2$

因而分離超平面爲：
$\frac{1}{2}x^{(1)}+\frac{1}{2}x^{(2)}-2 = 0$
分類決策函數爲：
$f(x) = sign(\frac{1}{2}x^{(1)}+\frac{1}{2}x^{(2)}-2 )$

由上面兩種方法可見，兩種方法獲得的超平面是同樣的，也驗證了對偶方法的有效性。

至此，咱們獲得目標函數：
$\max_{\alpha_i \geqslant 0}L(w,b,\alpha) = \max_{\alpha_i \geqslant 0} \frac{1}{2}||w||^2-\sum_{i=1}^N \alpha_i[y_i(w \cdot x + b) - 1]$

注意到，若是 $x_i$ 是支持向量的話，上式中 $y_i(w \cdot x + b) - 1 = 0$ （由於至此向量的函數間隔爲1），而對於非支持向量來講，函數間隔會大於1，所以 $y_i(w \cdot x + b) - 1 > 0$ ，而 $\alpha_i \geqslant 0$ ，爲了知足最大化， $\alpha_i$ 必須等於0。

到目前爲止，線性可分支持向量機只能處理線性可分數據集，不過，在獲得了對偶問題形式以後，經過核函數（Kernel）推廣到非線性的狀況就變成了一個很是容易的事情了。

3、核函數 `Kernel`

$\quad\quad$ 在現實任務中，咱們獲得的通常都不是線性可分的，這時線性可分支持向量機就不適用了。由於這時咱們以前所提到的不等式約束並不能都成立。那麼對於非線性的數據 SVM 是如何處理的呢？

$\quad\quad$ 對於非線性的狀況，SVM 的處理方法是選擇一個核函數 $k(\cdot,\cdot)$ ，經過將數據映射到高維空間，來解決在原始空間中線性不可分的問題。

$\quad\quad$ 具體來講，在線性不可分的狀況下，支持向量機首先在低維空間中完成計算，而後經過核函數將輸入空間映射到高維特徵空間，最終在高維特徵空間中構造出最優的分離超平面，從而把平面上自己很差分的非線性數據分開。如圖所示，一維數據在二維空間沒法劃分，從而映射到三維空間裏劃分：

所以，在沒有核函數以前，當咱們但願用前面線性分類問題的方法來解決這個問題，就須要選擇一個非線性特徵集，並將數據改寫成新的表達方式，這等價於應用一個固定的非線性映射，將數據映射到特徵空間，在特徵空間中使用線性分類器。

$f(x) = \sum_{i=1}^N w_i \phi_i(x) + b$

其中， $\phi$ ：表示從輸入空間到某個特徵空間的映射，這意味着線性分類方法求解非線性分類問題通常分爲兩步：

使用一個變換將原空間的數據映射到新空間；
在新空間裏使用線性分類學習方法從訓練數據中學習分類模型。

一、核函數：如何處理非線性數據

$\quad\quad$ 假設咱們有以下圖所示的兩類數據，分別爲兩個圓圈的形狀，很明顯這樣的數據是線性不可分的，那麼咱們如何把這兩類數據分開呢？

$\quad\quad$ 事實上，上圖數據集使用兩個不一樣半徑的圓圈加上少許噪聲生成獲得的，因此，一個理想的分類應該是一個「圓圈」而不是一條直線（超平面），若是用 $X_1$ 和 $X_2$ 來表示這個二維平面的兩個座標，咱們知道一個二次曲線的方程能夠寫成以下形式：

$a_1X_1 + a_2X_1^2+a_3X_2+a_4X_2^2+a_5X_1X_2+a_6=0$

注意上面的形式，若是咱們構造另外一個五維的空間，其中五個座標的值分別爲：
$Z_1 = X_1,Z_2=X_1^2,Z_3=X_2,Z_4=X_2^2,Z_5=X_1X_2$
那麼，上面的方程就能夠寫成：

$\sum_{i=1}^5a_iZ_i + a_6 =0$

$\quad\quad$ 關於新的座標 $Z$ ，若是咱們作一個映射 $\phi：R_2 \rightarrow R_5$ ，將 $X$ 按照上面的規則映射爲 $Z$ ，那麼在的新的空間中原來的數據將變成線性可分的，從而使用以前咱們推導的線性分類算法就能夠進行處理了，這正是 Kernel 方法處理非線性問題的基本思想。

$\quad\quad$ 再進一步描述 Kernel 的細節以前，不妨再來看看上述例子在映射事後的直觀形態。固然，咱們沒法把五維空間畫出來，不過因爲咱們生成數據的時候用了特殊的情形，因此這裏的超平面實際的方程是這個樣子的（圓心在 $X_2$ 軸上的一個正圓）：

$\sum_{i=1}^5a_iZ_i + a_6 =0$

$\quad\quad$ 所以我只須要把它映射到 $Z_1 = X_1^2,Z_2 = X_2^2,Z_3 = X_2$ ，這樣一個三維空間中便可，下圖便是映射以後的結果，將座標通過適當的旋轉，就能夠很明顯地看出，數據是能夠經過的一個平面來分開的，以下圖：

核函數至關於把原來的分類函數：
$f(x) = \sum_{i=1}^n\alpha_iy_i \langle x_i, x \rangle + b$
映射成：
$f(x) = \sum_{i=1}^n\alpha_iy_i \langle \phi(x_i), \phi(x) \rangle + b$

而其中的 $\alpha$ 能夠經過求解以下對偶問題獲得：

$\max_\alpha \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i,j=1}^n \alpha_i \alpha_j y_i y_j\langle \phi(x_i), \phi(x) \rangle$
$s.t. \quad \alpha_i \geqslant0 \quad\quad i = 1,2,...,n$
$\sum_{i=1}^n \alpha_i y_i =0$

獲得以上對偶問題，彷佛咱們就能夠解決非線性問題，咱們只須要找到一個映射 $\phi(\cdot)$ ，而後將非線性數據映射到新空間中，再作線性 SVM 便可，然而事實上並無這麼簡單。

在最初的例子裏，咱們對一個二維空間最映射，選擇的新空間是原始空間的全部一階和二階的組合，獲得五維空間；
若是原始空間是三維的，那麼咱們就會獲得：3個一次項+3個二次交叉項+3個平方項+1個三次交叉項+6個一次和二次交叉項=19維的空間，這個數目層指數級爆炸增加，從而一定給 $\phi(\cdot)$ 的計算帶來困難，並且若是遇到無窮維的狀況，就根本沒法計算了。