詳細請參考 http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.htmlhtml
支持向量機(Support Vector Machine)是Cortes和Vapnik於1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優點,並可以推廣應用到函數擬合等其餘機器學習問題中[10]。
支持向量機方法是創建在統計學習理論的VC 維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的複雜性(即對特定訓練樣本的學習精度,Accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期得到最好的推廣能力[14](或稱泛化能力)java
VC維 是對函數類的一種度量,能夠簡答的理解爲問題的複雜程度機器學習
統計學習所以而引入了泛化偏差界的概念,就是指真實風險應該由兩部份內容刻畫,一是經驗風險,表明了分類器在給定樣本上的偏差;二是置信風險,表明了咱們在多大程度上能夠信任分類器在未知文本上分類的結果。很顯然,第二部分是沒有辦法精確計算的,所以只能給出一個估計的區間,也使得整個偏差只能計算上界,而沒法計算準確的值(因此叫作泛化偏差界,而不叫泛化偏差)。函數
置信風險與兩個量有關,一是樣本數量,顯然給定的樣本數量越大,咱們的學習結果越有可能正確,此時置信風險越小;二是分類函數的VC維,顯然VC維越大,推廣能力越差,置信風險會變大。學習
泛化偏差界的公式爲:.net
R(w)≤Remp(w)+Ф(n/h)htm
公式中R(w)就是真實風險,Remp(w)就是經驗風險,Ф(n/h)就是置信風險。統計學習的目標從經驗風險最小化變爲了尋求經驗風險與置信風險的和最小,即結構風險最小。blog
SVM擅長應付樣本數據線性不可分的狀況,主要經過鬆弛變量(也有人叫懲罰變量)和核函數技術來實現ip
在進行文本分類的時候,咱們可讓計算機這樣來看待咱們提供給它的訓練樣本,每個樣本由一個向量(就是那些文本特徵所組成的向量)和一個標記(標示出這個樣本屬於哪一個類別)組成。以下:ci
Di=(xi,yi)
xi就是文本向量(維數很高),yi就是分類標記。
在二元的線性分類中,這個表示分類的標記只有兩個值,1和-1(用來表示屬於仍是不屬於這個類)。有了這種表示法,咱們就能夠定義一個樣本點到某個超平面的間隔:
δi=yi(wxi+b)
這個公式乍一看沒什麼神祕的,也說不出什麼道理,只是個定義而已,但咱們作作變換,就能看出一些有意思的東西。
首先注意到若是某個樣本屬於該類別的話,那麼wxi+b>0(記得麼?這是由於咱們所選的g(x)=wx+b就經過大於0仍是小於0來判斷分類),而yi也大於0;若不屬於該類別的話,那麼wxi+b<0,而yi也小於0,這意味着yi(wxi+b)老是大於0的,並且它的值就等於|wxi+b|!(也就是|g(xi)|)
如今把w和b進行一下歸一化,即用w/||w||和b/||w||分別代替原來的w和b,那麼間隔就能夠寫成
這個公式是否是看上去有點眼熟?沒錯,這不就是解析幾何中點xi到直線g(x)=0的距離公式嘛!(推廣一下,是到超平面g(x)=0的距離, g(x)=0就是上節中提到的分類超平面)
小Tips:||w||是什麼符號?||w||叫作向量w的範數,範數是對向量長度的一種度量。咱們常說的向量長度其實指的是它的2-範數,範數最通常的表示形式爲p-範數,能夠寫成以下表達式
向量w=(w1, w2, w3,…… wn)
它的p-範數爲
看看把p換成2的時候,不就是傳統的向量長度麼?當咱們不指明p的時候,就像||w||這樣使用時,就意味着咱們不關心p的值,用幾範數均可以;或者上文已經提到了p的值,爲了敘述方便再也不重複指明。
當用歸一化的w和b代替原值以後的間隔有一個專門的名稱,叫作幾何間隔,幾何間隔所表示的正是點到超平面的歐氏距離,咱們下面就簡稱幾何間隔爲「距離」。以上是單個點到某個超平面的距離(就是間隔,後面再也不區別這兩個詞)定義,一樣能夠定義一個點的集合(就是一組樣本)到某個超平面的距離爲此集合中離超平面最近的點的距離。下面這張圖更加直觀的展現出了幾何間隔的現實含義:
H是分類面,而H1和H2是平行於H,且過離H最近的兩類樣本的直線,H1與H,H2與H之間的距離就是幾何間隔。
之因此如此關心幾何間隔這個東西,是由於幾何間隔與樣本的誤分次數間存在關係:
其中的δ是樣本集合到分類面的間隔,R=max ||xi|| i=1,...,n,即R是全部樣本中(xi是以向量表示的第i個樣本)向量長度最長的值(也就是說表明樣本的分佈有多麼廣)。先沒必要追究誤分次數的具體定義和推導過程,只要記得這個誤分次數必定程度上表明分類器的偏差。而從上式能夠看出,誤分次數的上界由幾何間隔決定!(固然,是樣本已知的時候)
到此咱們就明白了爲何要用幾何間隔做爲一個評價優劣的指標了,幾何間隔越大的解,偏差上界就越小。。