SVM入門(二)線性分類器Part 1

線性分類器(必定意義上,也能夠叫作感知機) 是最簡單也頗有效的分類器形式.在一個線性分類器中,能夠看到SVM造成的思路,並接觸不少SVM的核心概念.用一個二維空間裏僅有兩類樣本的分類問題來舉個小例子。如圖所示html


        C1和C2是要區分的兩個類別,在二維平面中它們的樣本如上圖所示。中間的直線就是一個分類函數,它能夠將兩類樣本徹底分開。通常的,若是一個線性函數可以將樣本徹底正確的分開,就稱這些數據是線性可分的,不然稱爲非線性可分的。

ide

        什麼叫線性函數呢?在一維空間裏就是一個點,在二維空間裏就是一條直線,三維空間裏就是一個平面,能夠如此想象下去,若是不關注空間的維數,這種線性函數還有一個統一的名稱——超平面(Hyper Plane)
        實際上,一個線性函數是一個實值函數(即函數的值是連續的實數),而咱們的分類問題(例如這裏的二元分類問題——回答一個樣本屬於仍是不屬於一個類別的問題)須要離散的輸出值,例如用1表示某個樣本屬於類別C1,而用0表示不屬於(不屬於C1也就意味着屬於C2),這時候只須要簡單的在實值函數的基礎上附加一個閾值便可,經過分類函數執行時獲得的值大於仍是小於這個閾值來肯定類別歸屬。 例如咱們有一個線性函數g(x)=wx+b,咱們能夠取閾值爲0,這樣當有一個樣本xi須要判別的時候,咱們就看g(xi)的值。若g(xi)>0,就判別爲類別C1,若g(xi)<0,則判別爲類別C2(等於的時候咱們就拒絕判斷,呵呵)。此時也等價於給函數g(x)附加一個符號函數sgn(),即f(x)=sgn [g(x)]是咱們真正的判別函數。

函數

        關於g(x)=wx+b這個表達式要注意三點:spa

一,式中的x不是二維座標系中的橫軸,而是樣本的向量表示,例如一個樣本點的座標是(3,8),則xT=(3,8) ,而不是x=3(通常說向量都是說列向量,所以以行向量形式來表示時,就加上轉置)。orm

二,這個形式並不侷限於二維的狀況,在n維空間中仍然可使用這個表達式,只是式中的w成爲了n維向量(在二維的這個例子中,w是二維向量,爲了表示起來方便簡潔,如下均不區別列向量和它的轉置,聰明的讀者一看便知);htm

三,g(x)不是中間那條直線的表達式,中間那條直線的表達式是g(x)=0,即wx+b=0,咱們也把這個函數叫作分類面
        實際上很容易看出來,中間那條分界線並非惟一的,咱們把它稍微旋轉一下,只要不把兩類數據分錯,仍然能夠達到上面說的效果,稍微平移一下,也能夠。此時就牽涉到一個問題,對同一個問題存在多個分類函數的時候,哪個函數更好呢?顯然必需要先找一個指標來量化「好」的程度,一般使用的都是叫作「分類間隔」的指標。下一節咱們就仔細說說分類間隔,也補一補相關的數學知識。
blog


轉自:http://blog.sina.com.cn/s/blog_5f853eb10100qbb9.html數學

相關文章
相關標籤/搜索