線性支持向量機與軟間隔最大化
一、線性可分SVM的問題
【1】
現實中數據往往是線性不可分的。
即使可分,也會因異常點(藍色的)影響模型的泛化效果。
不考慮藍色異常點,分類超平面爲橙色。加入藍色點。分離超平面爲黑色。這樣會嚴重影響模型的預測效果。
二、線性SVM與軟間隔最大化
線性不可分意味着某些樣本點不能滿足函數間隔大於等於1。
軟間隔是相對於硬間隔而言的,對此我們放鬆了函數間隔的要求,之前是一定要大於等於1,現在只需要加上一個大於等於0的鬆弛變量能大於1就行。
對每一個樣本
(xi,yi)
引入一個鬆弛變量
ξi≥0
。約束條件變爲
yi(w⋅xi+b)+ξi≥1
鬆弛變量的引入是需要付出代價的,也就是說我們要懲罰那些誤分類的點。
線性SVM(包括了線性可分和線性不可分)的原始問題如下
minw,b,ξ12||w||2+C∑i=1nξi(1)
s.t.yi(w⋅xi+b)≥1−ξi,i=1,2,..n(2)
ξi≥0,i=1,2,...n(3)
目標函數儘量小,即間隔儘量大 ,同時誤分類點的個數儘量小,
C>0
是調和二者的係數。
三、對偶算法
根據上篇對偶算法的一般步驟有
公式繁瑣,有機會再重敲ヽ(`Д´)ノ︵ ┻━┻ ┻━┻
由此我們得到了線性SVM的對偶問題
maxα−12∑i=1n∑j=1nαiαjyiyj(xi⋅xj)+∑i=1nαi(4)
s.t.∑i=1nαiyi=0(5)
0≤αi≤C,i=1,2,...n(6)
與線性可分SVM的對偶問題對比,只多了
αi≤C
。
4.
線性支持向量機的KKT條件
解的偏導=0
∇wL(w∗,b∗,ξ∗,α∗,μ∗)=w∗−∑i=1nα∗iyixi=0
∇bL(w∗,b∗,ξ∗,α∗,μ∗)=−∑i=1nα∗iyi=0
∇ξL(w∗,b∗,ξ∗,α∗,μ∗)=C−α∗−μ∗=0
解滿足不等式約束,
yi(w∗⋅xi+b∗)−1+ξ∗≥0
ξ∗≥0
拉格朗日乘子大於0
α∗i≥0
μ∗i≥0
對偶互補:拉格朗日乘子大於0時,解的不等式約束的等號成立
α∗i(yi(w∗⋅xi+b∗)−1+ξ∗i)=0
μ∗iξ∗i=0,i=1,2,...n
由第一個偏導得到
w∗=∑iα∗iyixi(7)
參數b是根據對偶互補條件得到的。
若存在
0<α∗j<C
,
由C−αj−μj=0
知
μj≠0
。
互補條件2得,
ξj=0
帶到互補條件1,
yj(w∗⋅xj+b∗)−1=0
b∗=yj−∑i=1nα∗iyi(xi⋅xj)(8)
w∗,b∗
與線性可分SVM對比
【2】p101 線性可分SVM,
w,b
是唯一的
【2】p109 線性SVM,可以證明
w
的解是唯一的,但
b
的解是不唯一的,
b
的解存在於一個區間。
在計算的時候,
b
可以取所有符合條件的樣本的平均值。
四、支持向量
由公式(7)(8)知,
w∗,b∗
只依賴於訓練數據集中
α∗>0
的樣本點(稱這樣的點爲支持向量),而其他樣本點對
w∗,b∗
沒有影響。這和線性可分SVM定義的支持向量是一致的。
線性可分SVM中的支持向量在間隔邊界上
線性SVM的支持向量可以在
間隔邊界上,間隔邊界與超平面之間,分離超平面誤分一側
1.若
0<α∗i<C
,上面已經推了一遍了,
ξi=0
,鬆弛變量爲0,支持向量在間隔邊界上
2.若
α∗i=C
-
0<ξ∗i<1
,分類正確,樣本在間隔邊界與分類超平面之間
-
ξ∗i=1
,樣本在分離超平面上
-
ξ∗i>1
,樣本在分離超平面誤分一側
五、合頁損失函數(hinge loss)
線性SVM的另一種解釋
最小化合頁損失函數
∑i=1n[1−yi(w⋅xi+b)]++λ||w||2(9)
其中
[z]+
爲取正值函數
[z]+={z,0,z>0z≤0
目標函數表示第一項當樣本點被正確分類且函數間隔(確信度)
yi(w⋅xi+b)
大於1時,損失是0。
否則,損失是
1−yi(w⋅xi+b)
,第二項表示正則化項。
感知機的損失函數是
[−yi(w⋅xi+b)]+
,當樣本點被正確分類時,損失是0。
否則,損失是
−yi(w⋅xi+b)
。
合頁損失函數不僅要求分類正確,而且確信度足夠高時損失纔是0。
0-1 損失函數,是可以用於二分類問題的損失函數,分類正確,損失是0;否則,損失是1。
【1】
橫座標表示函數間隔,縱座標表示損失。
其他的損失函數???先挖個坑
下面證明最小化合頁損失函數(公式9)和軟間隔最大化(線性SVM的原始問題公式1-3)是等價的
令
[1−yi(w⋅xi+b)]+=ξi
取正值函數知,
ξi≥0
,公式3成立;
[1−yi(w⋅xi+b)]+={1−yi(w⋅xi+b),0,1−yi(w⋅xi+b)>01−yi(w⋅xi+b)≤0
當
1−yi(w⋅xi+b)>0
,
yi(w⋅xi+b)=1−ξi
當
1−yi(w⋅xi+b)≤0
,
ξi=0
,
1−yi(w⋅xi+b)≤ξi
因此公式2成立;
公式9改寫爲
minw,b∑i=1nξi+λ||w||2
取
λ=12C
minw,b1C(12||w||2+C∑i=1nξi)
公式1成立。
參考文獻
【1】http://www.cnblogs.com/pinard/p/6100722.html 【2】統計學習方法