支持向量機SVM、優化問題、核函數

時間 2019-11-14

標籤支持向量 svm 優化問題函數简体版

原文原文鏈接

一、介紹

它是一種二類分類模型，其基本模型定義爲特徵空間上的間隔最大的線性分類器，即支持向量機的學習策略即是間隔最大化，最終可轉化爲一個凸二次規劃問題的求解。算法

二、求解過程

一、數據分類—SVM引入

假設在一個二維平面中有若干數據點(x,y)，其被分爲2組，假設這些數據線性可分，則須要找到一條直線將這兩組數據分開。這個將兩種數據分割開的直線被稱做分隔超平面(separating hyperplane)，當其在更加高維的空間中爲超平面，在當前的二維平面爲一條直線。數組

這樣的直線可能存在不少條，則咱們須要找到一條最優的直線。怎麼定義這個最優直線呢？若是依此構建的分類器可以在測試結果將測試數據分開，且數據點離這一決策邊界越遠，其結果將更可信。那麼在該二維平面中，須要使得離分割超平面最近的點，其離分割面儘量遠。網絡

設這些點到分割面的距離用間隔(margin)表示，則咱們須要最大化這些間隔，從而使得最後獲得的分類器在測試數據上表現地更加健壯。函數

那麼，什麼是支持向量(support vector)呢？就是離分割超平面最近的那些點。在超平面兩側最近的點造成了間隔邊界，而超平面則處於這兩個間隔邊界的中心。性能

二、找到最大間隔

以二維平面爲例。學習

在二維平面中的分割超平面爲一條直線，咱們將其表示爲：測試

其也能夠表示爲：優化

咱們能夠把x,y當作在這二維平面上的某個數據點的兩個特徵，那麼這個二維平面也就是特徵空間。這樣，從新定義其特徵爲x₁,x₂ ,對應係數爲w₁,w₂,對於更高維次，則有x_n,w_n,因而咱們能夠把特徵及其係數表示爲W^TX，其中W、X都是n維列向量。此時該超平面可表示爲：spa

那麼如何刻畫兩個不一樣的分類呢？咱們設：blog

上式表示刻畫n維特徵的數據的分類函數。顯然，若是g(X)=0，則在超平面上;其他數據將被該超平面分爲2部分，不妨設使得g(X)>0的數據類別爲1，g(X)<0的數據類別爲-1.

函數間隔(函數距離)

咱們定義函數間隔以下：

在超平面W^TX+b=0肯定的狀況下，|W^TX+b|能夠可以相對的表示數據X距離超平面的遠近。而W^TX+b的符號與類標記y的符號是否一致表示分類是否正確。因此，γ的值越大，表示分類正確且距離超平面越遠，該模型越可信。（當γ的值>0時，便可表示對應的數據點分類正確）

所以，咱們須要最大化最小間隔,設m爲數據點個數：

可是，這裏存在一個問題，即當W和b成比例的縮放時，超平面並無改變，可是函數間隔γ的取值也擴大2倍，意指經過最大化函數間隔沒有意義，由於任何成功劃分訓練實例的超平面均可以使函數間隔無限大。

接下來咱們將引入幾何間隔。

幾何間隔

定義幾何間隔以下：

此處y·(W^TX+b)其實就至關於|y·(W^TX+b)|（當該數據點被正確分類時）。其中||W||爲L2範數：

其實，幾何間隔所描述的其實就是點到超平面的垂直距離。好比對於二維平面中ax+by+c=0這一直線，直線外一點(x₁,y₁)到該直線的距離爲：

而7式只是將其擴展至高維平面。由此定義的須要的求解目標爲：

也能夠設最小几何間隔爲δ，變爲如下形式：

其中2式和3式表達的意思相同。上式中的第三個式子等號成立的緣由在於：

表示在m個數據點中找幾何間隔最小的，此時與無關，可將其提出表達式。

由於幾何間隔與函數間隔差一個||W||的係數，能夠設,Γ爲最小函數間隔，即：

上式可以保證找到的超平面距離兩個分類的數據點的集合的最小集合間隔相同。當W固定時，這時一個正樣本到這個平面的距離和一個負樣本到這個平面的距離之和的最小值也固定。對於相同的W、不一樣的b的超平面，其是互相平行的。不一樣的b會致使平面保持相同的「斜率」平移。假設這個平面從正負樣本的正中間往正樣本方向偏離一小段距離，那麼多是到正樣本的最小距離變小，到負樣本的最小距離變大，注意到是將最小間隔最大化，因此這個最小值還存在優化空間，並非咱們最後的最優的結果，因此從這個角度看，直線位於正中間是最優的。

三、目標化簡

爲了簡化式11，咱們能夠令Γ=1，即將最小函數間隔設爲1。設z爲實際的函數最小間隔值，兩邊同除以z值，則，則至關於對W^T、b進行了縮放，但對超平面的肯定並無影響。該操做的實際意義是同時縮放W^T、b讓距離超平面最近的那些樣本點的函數間隔爲1(即支持向量)，這樣調整後，不只對原來的優化問題沒有影響，並且還能簡化計算。

所以優化問題變爲：

既然距離超平面最近的那些數據點到超平面的距離爲1，那麼其餘遠離超平面的點到超平面的函數間隔>1。

咱們還能夠將轉換爲求解,二者等價，且便於以後的推導。所以，咱們獲得SVM的目標函數的基本公式：

此時問題轉換爲凸優化問題(目標函數是二次的，約束條件是線性的，因此它是一個凸二次規劃問題<QP問題>)。

四、拉格朗日乘子法

優化問題

在優化式11以前，須要先對優化問題作梳理。

一、無約束優化問題

該問題以下：

經過求導，使得導數爲0的即爲局部最小值。

二、等式約束優化問題

引入拉格朗日乘子：

拉格朗日條件以下：

即經過對L(x,λ_i)分別對x,λ_i求偏導，並使得偏導數爲0。

三、不等式約束優化問題

引入KKT乘子μ_i:

其解須要知足KKT條件：

若爲最大化,則條件2變爲：

四、最通常的優化問題

首先要介紹通常的最優化問題，即既有等式約束、又有不等式約束。

考慮如下問題：

引入拉格朗日乘子(針對等式約束)λ_i和KKT乘子(針對不等式約束)μ_j，獲得廣義拉格朗日函數：

其中：

該函數的約束條件以下：

一、 Stationarity——梯度要求

若爲最大化,則條件變爲：

二、 Primal feasibility——原始約束條件

三、 Dual feasibility

四、 Complementary slackness（互補鬆弛條件）

SVM目標函數轉化

對於式11，咱們先對不等式進行轉換：

引入KKT乘子α_i,獲得拉格朗日函數：

其須要知足的KKT條件爲：

一、梯度條件

分別對W,b求偏導：

二、KKT乘子需知足條件：

三、鬆弛互補條件：

從上述條件可知：

即對應KKT乘子爲0的數據點確定爲支持向量。

五、轉化對偶形式

原問題和對偶問題

介紹

假設原問題如式20中通常的優化問題所示，定義：

如今再定義：

則上式與式20等價。因而咱們就把原始的約束問題表示爲廣義拉格朗日函數的極小極大問題。其中p爲最優值。

而後咱們介紹其對偶問題(顛倒求極小和極大的順序)，定義：

d爲其最優值。如今的問題是d與p之間存在什麼關係？

弱對偶定理

顯然，對任意的x,λ,μ：

對偶問題與原問題的最優解相等的充要條件

對於原始問題和對偶問題，假設函數f(x)和g_j(x)是凸函數， h_i(x)是仿射函數（最高次數爲1的多項式函數。常數項爲零的仿射函數稱爲線性函數，可理解爲形如y=ax+b的函數），且不等式約束g_j(x)是嚴格可行的（嚴格可行即存在x,對於全部的i，都有g_j(x)≤0），那麼，x,λ,μ既是原始問題的最優解也是對偶問題的最優解的充要條件是：x,λ,μ知足KKT條件。

SVM目標函數轉對偶

原SVM問題轉化爲極小極大形式(等效形式)：

其對偶形式爲：

由於其知足KKT條件，故：

所以咱們先求解：

要使得上式最小，經過對W,b求偏導，令偏導數最小，獲得和。再將其代入上式得：

注意：

所以最後的優化目標函數爲：

約束條件爲：

當訓練獲得α以後，因爲：

由上式能夠計算獲得W，以後經過下式計算b:

或者經過支持向量來計算：

六、異常值outlier處理

當數據線性不可分時，或存在異常值outlier（本來爲負樣例的數據點跑到正樣例中），此時若仍要尋找一個超平面把兩類的數據點徹底分開，可能會使超平面傾斜、最小間隔變小，甚至找不到這樣一個超平面。而這些異常值可能本就屬於錯誤數據或噪聲，沒有必要使其必定劃分到正確的邊界兩側（採起硬間隔分類）。

折中的方案是容許部分數據點在必定程度上位於間隔邊界內部，即其函數間隔小於1.

因而咱們引入鬆弛因子ξ_i，表示容許樣本點在超平面的相對平移量：

由於鬆弛因子是非負的，所以最終的結果是要求間隔能夠比1小。可是當某些點出現這種間隔比1小的狀況時（這些點也叫離羣點），意味着咱們放棄了對這些點的精確分類，而這對咱們的分類器來講是種損失。可是放棄這些點也帶來了好處，那就是使分類面沒必要向這些點的方向移動，於是能夠獲得更大的幾何間隔（在低維空間看來，分類邊界也更平滑）。

可是放棄咱們須要平衡損失。原始的目標函數爲：

而由忽略異常值形成的損失會使增大，咱們須要加上損失量：

選擇第一種的稱爲一階軟間隔分類器，第二種爲二階軟間隔分類器，二者沒有太大的區別。

再把損失加入目標函數中，須要一個懲罰因子C，表示離羣點的權重，C越大代表離羣點對目標函數影響越大，也就是越不但願看到離羣點。這時候，間隔也會很小。咱們採用第一種分類器：

最後原模型變爲：

這樣，通過一樣的引入KKT乘子α_i和β_i：

轉化對偶形式：

由於：

咱們能夠獲得α_i新的約束條件，並約去β_i：

所以，最後的優化目標爲：

從上述條件結合其KKT條件可知：

因此離羣點的KKT乘子爲C，位於間隔邊界外的點的KKT乘子爲0，屬於支持向量的點的KKT乘子範圍在(0,C)之間。可是在邊界上的點其多是支持向量、離羣點或其餘點。

七、經過SMO算法優化α

簡介

根據咱們最後的優化目標：

咱們須要求出m個符合條件的最優的α_i。

爲了求解m個參數，若是不存在約束條件，能夠經過座標上升法，即固定其中其餘參數，優化目標轉變爲關於一個變量的極值問題，可經過求導計算獲得當前最優值(極大或極小)下該選定參數的取值。以後經過迭代屢次以達到優化目的。

然而，在該問題中，存在這一約束，若是選取一個α_i且固定其餘α，則當前選取的α_i在該約束條件下已是固定值。所以咱們能夠選取2個變量，固定其他m-2個變量，轉化爲一個二元函數求解。

而SMO算法的核心在於將一個大的優化問題轉化爲多個小優化問題來求解。即每次尋找2個α_i，咱們記作α₁和α₂，對這兩個α_i進行優化。

具體步驟爲：

一、經過啓發式方法尋找一對α₁、α₂。（有的提出簡化版SMO算法，即經過兩層遍歷所有數據集並限制最大迭代次數來肯定α₁、α₂）。

二、固定除了α₁、α₂ 以外的其餘參數，肯定目標函數取極值下的α_1，α₂ 可經過由α₁表示獲得。

推導過程

轉爲二元函數

爲推導方便，設：

K_i,j表示列向量X⁽ⁱ⁾ 和X^(j)的點積(數量積).

假設已經有選好的2個變量，記爲α₁、α₂ ，並把優化目標函數記爲W(α₁,α₂ )，那麼(注意 )：

咱們對上式取負，則優化最大值問題變爲優化最小值問題：

如今，咱們的優化目標轉變爲一個二元函數。

因爲等式約束，咱們獲得下式：

其中ζ爲常量(由於此時咱們已固定除α₁,α₂以外的參數)。

兩邊同乘以y⁽¹⁾:

對α₂求導

把代入獲得的二元函數中：

其中這最後兩項爲常數項，記爲 y_c:

W(α₂)對α₂求導，並令導函數爲0，得：

α₁,α₂迭代關係式

假設上一次迭代的α₁,α₂記作α₁^*，α₂^*，則有：

因而咱們獲得新舊值之間的聯繫。將其代入到α₂導函數獲得的等式中，獲得：

同時，因爲：

咱們設：

所以：

注意此處的μ₁，μ₂爲使用α₁^*，α₂^*計算得出。

帶回原式，獲得：

咱們記偏差值，則有：

因而咱們即可以獲得α₂的迭代關係式：

則α₁的迭代關係式爲：

此時，咱們已經找到使得導函數爲0的α係數的迭代關係式，可是，這僅僅是經過導函數爲0獲得的，也就是說，這僅僅是極值點，不必定爲最值點，有如下幾個問題：

一、取極值點的α位於定義域以外

二、最值點位於定義域邊界

固然，在約束問題中，所謂的定義域即取值的可行域。

同時，在迭代關係式中，分母爲，這也恰好爲W(α₂)中平方項的係數。所以也須要對其進行討論。

判斷可行域

上面2式共同決定了α₂的可行域：

所以，咱們綜合上述狀況，得知：

判斷係數：K_1,1+K_2,2-2K_1,2

由前面推導過程可知，，而令導數爲0，更新α₂的值須要在K_1,1+K_2,2-2K_1,2爲正的狀況下。

此處咱們應當討論K_1,1+K_2,2-2K_1,2不爲正的狀況。

1）K_1,1+K_2,2-2K_1,2=0

此時W(α₂)轉變爲一次函數，更新時不用求導，只需看邊界值L,H，選取較小的那一個。而對於α₁，則經過表達式來分析。

2）K_1,1+K_2,2-2K_1,2<0

此時二次函數開口向下，最小值也是在可行域的邊界處取到。此時開口向下，當極值點在區間內時，最小值只能在端點處取，由於極值點處是最大的。而當極值點在區間外時，區間內必定是單調的，此時最小值也只能在端點處取。

如何根據邊界值L,H計算對應的函數值呢？

分別用α₂的邊界值L,H代入，獲得α₁的兩個」邊界值」 L',H'，再把這兩對取值代入W(α₁,α₂)中，選擇值較小的進行更新。

計算b

每一輪更新α₁,α₂的同時，須要對b也要進行更新，由於b涉及到、偏差值的計算。

設已經更新結束的α₁,α₂記爲。

1）

此時咱們能夠推出：

由上述兩式可得：

由此知：

由於：

2）

通過和上步類似的推導過程：

α₁、α₂的選擇

之間全部的推導都基於α₁、α₂已經選取的狀況下，那麼咱們如今討論如何選取合適的α₁、α₂，即從m個α值選取兩個α值。

在John C. Platt的論文《Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines》中採用一種啓發式方法：每次選擇KKT乘子的時候，優先選擇樣本0<α_i<C的α_i做優化（論文中稱爲無界樣例），由於在界上（α_i=0或α_i=C）的樣例對應的係數α_i通常不會更改。

ⅰ、外循環——尋找第一個α

此處在遍歷整個樣本數據集和遍歷知足0<α_i<C的數據集交替。

①遍歷一遍整個數據集，對存在下述狀況的α_i進行優化(即違反了KKT條件)

其中toler表示error-tolerant rate，即容錯率，也就是的最小偏差，爲人爲規定，容許存在必定的偏差。

咱們以前從約束條件和KKT條件得知：

咱們應當選擇的全部α_i及其對應的y⁽ⁱ⁾、X⁽ⁱ⁾應當都知足上述條件。所以，咱們須要優化的α_i爲不知足上述條件的狀況：

因爲容許必定的偏差，故基本不會有數據點使得，所以不予考慮。

咱們對這兩個條件進行分析：

1）對第一個條件：

由此違反KKT條件。

2）對第二個條件：

由此違反KKT條件。

②在上面對整個數據集遍歷一遍後，選擇那些參數0<α_i<C的子集，檢查其是否違反KKT條件並進行優化。

③遍歷完子集後，從新開始①②，不斷在整個樣本數據集和遍歷知足0<α_i<C的數據集交替，直到在執行①和②時沒有任何修改即全部的α_i都符合KKT條件則結束。

ⅱ、內循環——尋找第二個α

當咱們選取了第一個α後，爲了能快速收斂，但願第二個選取的α在優化後能有較大的變化。

而咱們得知，α₂的迭代關係式爲，則新的α₂與舊值之間的變化依賴於|E₁-E₂|。

①先在0<α_i<C的集合中選擇能最大化|E₁-E₂|的α₂。

②若是不存在(符合0<α_i<C的集合爲空)，則在整個樣本數據集尋找。(一般隨機選擇一個)

③不然從新選取第一個α。

三、核函數的應用

對於非線性的狀況，SVM 的處理方法是選擇一個核函數，經過將數據映射到高維空間，來解決在原始空間中線性不可分的問題。

此外，由於訓練樣例通常是不會獨立出現的，它們老是以成對樣例的內積形式出現，而用對偶形式表示學習器的優點在爲在該表示中可調參數的個數不依賴輸入特徵的個數，經過使用恰當的核函數來替代內積，能夠隱式得將非線性的訓練數據映射到高維空間，而不增長可調參數的個數(固然，前提是核函數可以計算對應着兩個輸入特徵向量的內積)。

核函數

根據模式識別理論，低維空間線性不可分的模式經過非線性映射到高維特徵空間則可能實現線性可分，可是若是直接採用這種技術在高維空間進行分類或迴歸，則存在肯定非線性映射函數的形式和參數、特徵空間維數等問題，而最大的障礙則是在高維特徵空間運算時存在的「維數災難」(隨着維數的增長，計算量呈指數倍增加的一種現象)。採用核函數技術能夠有效地解決這樣問題。

下面將舉個例子。

假如x,y∈R(3):

存在非線性映射：

則在特徵空間的內積：

而其核函數記爲：

若是設維度爲n，直接用非線性映射計算內積將達到n²的複雜度；採用核函數，則可在n的複雜度完成計算。

也就是說，咱們經過核函數，用低維的計算量獲得了高維的結果，沒有增長計算複雜度的同時，獲得了性質更好的高維投影。

Mercer定理

任何半正定的函數均可以做爲核函數。

對於給定的任意向量集合：

任意兩個向量的核函數組成的矩陣爲核矩陣：

對於任意的列向量z，根據內積的非負性，有：

所以若是是核函數，那麼對於任意的樣本集合，獲得的核矩陣爲半正定矩陣。

mercer定理不是核函數必要條件，只是一個充分條件，即還有不知足mercer定理的函數也能夠是核函數。常見的核函數有高斯核，多項式核等等，在這些常見核的基礎上，經過核函數的性質（如對稱性等）能夠進一步構造出新的核函數。

常見核函數

1）線性核函數(Linear Kernel)

使用線性核的覈算法一般等價於它們的非核函數

2) 多項式核函數(Polynomial Kernel)

多項式核是一個非平穩的核。多項式內核很是適合全部訓練數據被規範化的問題。可調參數是斜率a，常數項c和多項式指數d。

3) 高斯核函數(Gaussian Kernel)

或者，其也能使用：

是一種徑向基核函數(Radial Basis Function)。該核函數被普遍使用，可是這個核函數的性能對參數十分敏感。若是太高，指數會表現得幾乎是線性的，高維的投影會開始失去它的非線性能量。另外一方面，若是被低估，該函數將缺少正則化，且決策邊界對訓練數據中的噪聲很是敏感。高斯核函數也有了不少的變種，如指數核，拉普拉斯核等。

4) 雙曲正切Sigmoid核函數

注：

雙曲切核也被稱爲Sigmoid內核和多層感知器(MLP)內核。Sigmoid內核來自於神經網絡領域，在該領域中雙極性Sigmoid函數常被用做人工神經元的激活函數。

值得注意的是，使用sigmoid內核函數的SVM模型等價於一個兩層的感知器神經網絡。因爲神經網絡理論的起源，這種內核在支持向量機方面至關流行。此外，儘管它只是有條件的確定，但它在實踐中被發現表現良好。

在sigmoid內核中有兩個可調參數，即斜率a和截距常數c, a的一個一般值是1/n，其中n爲數據維數。關於sigmoid核函數的更詳細的研究能夠在Hsuan-Tien和Chih-Jen的做品中找到。

5)指數核函數(Exponential Kernel)

指數核函數就是高斯核函數的變種，它僅僅是將向量之間的L2距離調整爲L1距離，這樣改動會對參數的依賴性下降，可是適用範圍相對狹窄。它也是一個徑向基函數核。

6)拉普拉斯核函數(Laplacian Kernel)

拉普拉斯核徹底等價於指數核，惟一的區別在於前者對參數的敏感性下降，也是一種徑向基核函數。

7) ANOVA Kernel

ANOVA 核也屬於徑向基核函數一族，其適用於多維迴歸問題。

8) 二次有理核(Rational Quadratic Kernel)

二次有理核函數在計算上比高斯核小，在使用高斯函數時，能夠做爲一種替代方法。這個核函數做用域雖廣，可是對參數十分敏感，慎用。

9）多元二次核(Multiquadric Kernel)

多元二次核能夠替代二次有理核，和Sigmoid內核同樣，它也是一個非正定內核。

10) 逆多元二次核（Inverse Multiquadric Kernel）

基於這個核函數的算法，不會遇到核相關矩陣奇異的狀況。與高斯核同樣，它的結果是一個具備全秩的核矩陣(Micchelli, 1986)，從而造成一個無限維的特徵空間。

11）Circular Kernel

圓形核來自於統計透視圖。它是各向同性靜止核的一個例子，在中是正定的。

12) Spherical Kernel

球形核與圓形核類似，但在R³中正定。

13) Wave Kernel

適用於語音處理場景。爲對稱的正半定。

14）Power Kernel

也稱爲(未糾正的)三角核(triangular kernel)。它是一個標量不變核(Sahbi和Fleuret, 2004)的例子，並且也只是有條件的正定。

15)對數核函數(Log Kernel)

對於圖像來講，對數核彷佛特別有趣，但它只是有條件的正定。

16) 樣條核(Spline Kernel)

其實際是指：

樣條核是由Gunn(1998)的論文所導出的一個分段三次多項式。

17) b樣條核(B-Spline (Radial Basis Function) Kernel)

在Bart Hamers的論文中，其爲：

18) Bessel Kernel

其中J是第一種貝塞爾函數（Bessel function of first kind）。

然而，在Kernlab的R文檔中，Bessel核被認爲是:

貝塞爾核在分數平滑的函數空間理論中衆所周知.

19）柯西核函數（Cauchy Kernel）

與柯西分佈類似，函數曲線上有一個長長的尾巴，是一種長尾核，說明這個核函數的定義域很普遍，言外之意，其可應用於原始維度很高的數據上。

20）卡方核函數（Chi-Square Kernel）

卡方核來自卡方分佈。

它存在着以下變種：

這個核函數基於的特徵不可以帶有賦值，不然性能會急劇降低，若是特徵有負數，那麼就用下面這個形式：

21）直方圖交叉核(Histogram Intersection Kernel)

在圖像分類裏面常常用到，好比說人臉識別，適用於圖像的直方圖特徵，例如extended LBP。

22) 廣義直方圖交叉核(Generalized Histogram Intersection kernel)

廣義直方圖交叉核是基於圖像分類的直方圖交叉核構建的，但適用於更大的上下文環境。

23）Generalized T-Student Kernel

屬於mercer核，具備一個正半定核矩陣。

24）貝葉斯核(Bayesian Kernel)

貝葉斯核取決於被建模的問題。

25)小波核（Wavelet kernel）

其來源於小波理論。其中a和c分別是小波擴張和平移係數。

這個內核的平移不變版本（translation-invariant version）能夠是:

h(x)中表示母波函數。在李章、周偉達和李誠的論文中，做者提出了一個可能的h(x):

它們被證實爲admissible kernel function.

26)複合核函數

複合核函數也叫混合核函數，是將兩種或兩種以上的核函數放在一塊兒使用，造成一種新的核函數。

如何選擇核函數

若是特徵的數量大到和樣本數量差很少，則選用LR或者線性核的SVM；

若是特徵的數量小，樣本的數量正常，則選用SVM+高斯核函數；

若是特徵的數量小，而樣本的數量很大，則須要手工添加一些特徵從而變成第一種狀況。

SVM應用

在線性不可分的狀況下，支持向量機首先在低維空間中完成計算，而後經過核函數將輸入空間映射到高維特徵空間，最終在高維特徵空間中構造出最優分離超平面，從而把平面上自己很差分的非線性數據分開。如圖所示，一堆數據在二維空間沒法劃分，從而映射到三維空間裏劃分：

而在咱們遇到核函數以前，若是用原始的方法，那麼在用線性學習器學習一個非線性關係，須要選擇一個非線性特徵集，而且將數據寫成新的表達形式，這等價於應用一個固定的非線性映射，將數據映射到特徵空間，在特徵空間中使用線性學習器，所以，考慮的假設集是這種類型的函數：

是從輸入空間到某個特徵空間的映射，這意味着創建非線性學習器分爲兩步：

一、首先使用一個非線性映射將數據變換到一個特徵空間F；

二、而後在特徵空間使用線性學習器分類。

若是用內積表示，則：

核函數可以讓其在特徵空間直接計算內積，並且無需知道非線性映射的顯式表達式。所以目標函數轉化後的對偶形式應當改成：

四、利用結果預測

未使用核函數

利用算出的W或α和b來預測：

使用核函數

利用算出的α和b來計算：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。