-
線性分類器中主要任務是在樣本空間中尋找一個超平面將不同類別的樣本分開。
這些超平面有很多,一般來說,」正中間「的泛化性能最強,魯棒性最好。
-
間隔與支持向量
劃分超平面可描述爲:
ωTx+b=0
ω=(ω1;ω2;⋯;ωd)爲法向量,決定方向;
b爲位移量,決定超平面到原點的距離。
任意點x到超平面
(ω,b)的距離爲
r=∣∣ω∣∣∣ωTx+b∣
假設超平面分類正確,那麼
若
(xi,yi)∈D,
yi=+1則
ωTxi+b>0,
yi=−1則
ωTxi+b<0;令
ωTxi+b>=1,
yi=+1;
ωTxi+b<=−1,
yi=−1
距離超平面最近的幾個訓練樣本點使得上式成立,稱爲支持向量。
兩個異類支持向量到超平面的距離之和爲
γ=∣∣ω∣∣2,稱爲間隔。
-
SVM的基本型
找到
ω和
b滿足
yi(ωTxi+b)>=1,
i=1,2,⋯,m使得間隔
γ=∣∣ω∣∣2最大。
這等價於:找到
ω和
b滿足
yi(ωTxi+b)>=1,
i=1,2,⋯,m使得
21∣∣ω∣∣2最小(式1)。
-
對偶問題
對式1使用拉格朗日乘子法,得到其對偶問題。
#1.
L(ω,b,α)=21∣∣ω∣∣2+i=1∑mαi(1−yi(ωTxi+b))
#2.令
L(ω,b,α)對
ω和b的偏導等於零,即得:
ω=i=1∑mαiyixi
i=1∑mαiyi=0(∗) #3.代回即得:
L(ω,b,α)=i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj #4.考慮(*)處約束,即得式1的對偶問題:
αmaxi=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxjs.t.
i=1∑mαiyi=0(∗)
αi>=0.
-
解的稀疏性
求出
α後即得最終模型:
f(x)=ωTx+b=i=1∑mαiyixiTx+b
KKT條件:
⎩⎨⎧αi>=0yif(xi)>=1αi(1−yif(xi))=0
即必有:
αi=0或者
yif(xi)=1
由此體現解的稀疏性:訓練完成後,最終模型只與支持向量有關。
-
特徵空間映射
不存在一個超平面能將兩類樣本正確劃分時,可將樣本從原始空間映射到更高維度的特徵空間,使得樣本在這個特徵空間內線性可分。
設樣本
x映射後的向量爲
ϕ(x),劃分超平面爲:
f(x)=ωTϕ(x)+b
原始問題:找到
ω和
b滿足
yi(ωTϕ(xi)+b)>=1,
i=1,2,⋯,m使得
21∣∣ω∣∣2最小
對偶問題:
αmaxi=1∑mαi−21i=1∑mj=1∑mαiαjyiyjϕ(xi)Tϕ(xj)s.t.
i=1∑mαiyi=0(∗)
αi>=0.
預測模型:
f(x)=ωTϕ(x)+b=i=1∑mαiyiϕ(xi)Tϕ(x)+b
-
核函數
設計核函數
k(xi,xj)=ϕ(xi)Tϕ(xj)解決內積
ϕ(xi)Tϕ(xj)因維度過高計算困難的問題。
只要一個對稱函數對應的矩陣半正定,這個函數就能作爲核函數使用。
常用核函數:文本數據常用線性核,情況不明時先嚐試高斯核。
若
k1(xi,xj),
k1(xi,xj)均爲核函數,那麼對任意正數
γ1、
γ1和任意函數
g(x):
γ1k1(xi,xj)+γ2k2(xi,xj)、
k1(xi,xj)k1(xi,xj)、
k(xi,xj)=g(xi)k1(xi,xj)g(xj))均爲核函數。
-
軟間隔
允許在一些樣本上不滿足約束
優化目標:在最大化間隔的同時,讓不滿足約束
yi(ωTxi+b)>=1的樣本數儘可能少。
ω,bmin21∣∣ω∣∣2+Ci=1∑ml0/1(yi(ωTxi+b)−1)
其中,
l0/1(z)={1ifz<00else
非凸、不連續、不易優化
替代損失函數:
lhinge(z)=max(0,1−z)、
lexp(z)=exp(−z)、
llog(z)=log(1+exp(−z))
替代損失的一致性問題討論:
原始問題:
ω,bmin21∣∣ω∣∣2+Ci=1∑mmax(0,1−yi(ωTxi+b))
引入鬆弛變量
ξi:
ω,bmin21∣∣ω∣∣2+Ci=1∑mξi,
s.t.
yi(ωTxi+b)>=1−ξi
ξi>=0
對偶問題:
αmaxi=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxjs.t.
i=1∑mαiyi=0
0≤αi<=C.
最終模型仍只與支持向量有關。
-
支持向量迴歸(SVR)
基本思路:允許模型輸出與實際輸出存在
2ϵ的差別。
使用
ϵ不敏感損失函數:
lϵ(z)={0ifz≤∣ϵ∣∣z∣−ϵelse,表示落入
2ϵ間隔段內的數據不計算損失。
原始問題:
ω,b,ξi,ξi^min21∣∣ω∣∣2+Ci=1∑m(ξi+ξi^),s.t.
f(xi)−yi≤ξi+ϵ
yi−f(xi)≤ξi^+ϵ
ξi>=0
ξi^>=0
對偶問題:
KKT條件:
最終模型:
f(x)=i=1∑m(αi^−αi)xiTx+b
在求得
αi後,根據KKT條件,當
C−αi=0時,利用
αi(f(xi)−yi−ϵ)=0求出
b。更魯棒的方法是找到所以
0=<αi≤C的
αi求出b後取平均值。
-
核方法
表示定理: 最常見的核方法是通過引入核函數(核化)將線性學習器拓展爲非線性學習器。