支持向量機(SVM)是一種二分類模型,有別於感知機(誤分類點到超平面的總距離),SVM的學習策略是間隔函數
最大化,當訓練樣本徹底線性可分時,採用硬間隔最大化,稱爲線性可分支持向量機;當訓練樣本近似線學習
性可分時,增長鬆弛變量,採用軟間隔最大化,稱爲線性支持向量機;在非線性問題中引入了核函數和軟測試
間隔最大化,稱爲非線性支持向量機。spa
分離超平面:rest
樣本點到分離超平面的距離:blog
正確性與置信度:,其中根據類標籤y與(w*x+b)的符號是否一致,能夠判斷正確性,基礎
y(w*x+b)的計算結果做爲置信度變量
決策函數:方法
SVM核函數的基本思想是經過非線性變化將輸入空間的數據映射到高維特徵空間,而後採用線性可分支持im
向量機或線性支持向量機進行學習。經常使用核函數包括線性核函數,多項式核函數和高斯核函數,其中高斯
核函數須要調參。
針對多分類問題SVM的解決方案分爲兩種:直接法和間接法。直接法的基本思想是同時考慮全部類別的數據,
實現困難,計算複雜度高;間接法的基本思想(二分類的組合)包括:一對一(one-vs-one) & 一對多(one-
vs-rest),假設有N個類別的訓練樣本,「一對一」按照類別兩兩組合進行訓練,而後進行二分類訓練可造成
N*(N-1)/2個支持向量機,測試時投票表決獲得分類類別;「一對多」須要從新劃分數據集,依次將某種類別
的訓練樣本做爲正例,其他類別的訓練樣本合在一塊兒做爲負例,而後進行二分類訓練可造成N個支持向量機,
測試時選取置信度最高的結果。在大多數情況下,與第一種方法相比,第二種方法所需的SVM的個數較少,
測試速度較快,可是更易受不平衡數據的影響。
SVM的可解釋性強,且適用於小樣本訓練集,在非線性問題中,核函數的引入使得SVM解決了非線性問題,可是
核函數的選擇和調參較爲敏感,SVM中的線性可分、近似線性可分和非線性問題最初均指二分類,後面隨着應用
場景的增長,二分類的組合被普遍用於多分類。