機器學習---核函數

前言:當我跟你提及核的時候,你的腦海裏必定是這樣的:html

想到的必定是BOOMBOOM。談核色變,可是今天咱們說的核卻溫和可愛的多了。算法

我記得我前面說到了SVM的核武器是核函數,這篇文章能夠做爲http://www.cnblogs.com/xiaohuahua108/p/5934282.html這篇文章的下篇。可是我這裏首先強調一下,核函數不是僅僅在SVM裏使用,他只是一個工具,把低維數據映射到高維數據的工具。函數

形如這樣:工具

原本是二維的數據,如今咱們把它映射的高維。這裏也須要說明下,低維到高維,維數沒有一個數量上的標準,可能就是無限維到無限維。性能

一 核

1.1 核的介紹


內核方法是一類用於模式分析或識別的算法,其最知名的使用是在支持向量機(SVM)。模式分析的通常任務是在通常類型的數據(例如序列,文本文檔,點集,向量,圖像等)中找到並研究通常類型的關係(例如聚類,排名,主成分,相關性,分類)圖表等)。內核方法將數據映射到更高維的空間,但願在這個更高維的空間中,數據能夠變得更容易分離或更好的結構化。對這種映射的形式也沒有約束,這甚至可能致使無限維空間。然而,這種映射函數幾乎不須要計算的,因此能夠說成是在低維空間計算高維空間內積的一個工具。 優化

1.2 核的訣竅

內核技巧是一個很是有趣和強大的工具。 它是強大的,由於它提供了一個從線性到非線性的鏈接以及任何能夠只表示兩個向量之間的點積的算法。 它來自以下事實:若是咱們首先將咱們的輸入數據映射到更高維的空間,那麼我在這個高維的空間進行操做出的效果,在原來那個空間就表現爲非線性。 3d

如今,內核技巧很是有趣,由於不須要計算映射。 若是咱們的算法只能根據兩個向量之間的內積表示,咱們所須要的就是用一些其餘合適的空間替換這個內積。 這就是"技巧"的地方:不管使用怎樣的點積,它都被內核函數替代。 核函數表示特徵空間中的內積,一般表示爲: htm

 

K(x,y)= <φ(x),φ(y)> blog

 

使用內核函數,該算法而後能夠被攜帶到更高維空間中,而不將輸入點顯式映射到該空間中。 這是很是可取的,由於有時咱們的高維特徵空間甚至能夠是無限維,所以不可能計算。 文檔

講了這麼大一段廢話,仍是我上文的加黑部分,在低維中計算高維數據的點積。

1.3 核函數的性質

核函數必須是連續的,對稱的,而且最優選地應該具備正(半)定Gram矩陣。聽說知足Mercer定理的核是正半定數,意味着它們的核矩陣只有非負特徵值。使用確定的內核確保優化問題將是凸的和解決方案將是惟一的。

然而,許多並不是嚴格定義的核函數在實踐中表現得很好。一個例子是Sigmoid內核,儘管它普遍使用,但它對於其參數的某些值不是正半定的。 Boughorbel(2005)也實驗證實,只有條件正定的內核在某些應用中可能賽過大多數經典內核。

內核還能夠分爲各向異性靜止,各向同性靜止,緊湊支撐,局部靜止,非穩定或可分離非平穩。此外,內核也能夠標記爲scale-invariant(規模不變)或scale-dependent(規模依賴),這是一個有趣的屬性,由於尺度不變內核驅動訓練過程不變的數據的縮放。

 

補充:Mercer 定理:任何半正定的函數均可以做爲核函數。所謂半正定的函數f(xi,xj),是指擁有訓練數據集合(x1,x2,...xn),咱們定義一個矩陣的元素aij = f(xi,xj),這個矩陣式n*n的,若是這個矩陣是半正定的,那麼f(xi,xj)就稱爲半正定的函數。這個mercer定理不是核函數必要條件,只是一個充分條件,即還有不知足mercer定理的函數也能夠是核函數

1.4 如何選擇核

我導師說是世界性難題,反正我不懂,若是有懂得,能夠私聊我哦。

可是聽說高斯核效果很好。

二 幾種經常使用的核

2.1 線性核

線性內核是最簡單的內核函數。 它由內積<x,y>加上可選的常數c給出。 使用線性內核的內核算法一般等於它們的非內核對應物,即具備線性內核的KPCA與標準PCA相同。

 

表達式 :

2.2 多項式核函數

多項式核是非固定內核。 多項式內核很是適合於全部訓練數據都歸一化的問題。我記得通常都會把問題歸一化吧??

表達式:k(x,y)=(αx ^ T y + c)^ d

可調參數是斜率α,常數項c和多項式度d。

2.3 高斯核

高斯核是徑向基函數核的一個例子。

或者,它也可使用來實現

可調參數sigma在內核的性能中起着主要做用,而且應該仔細地調整到手頭的問題。 若是太高估計,指數將幾乎呈線性,高維投影將開始失去其非線性功率。 另外一方面,若是低估,該函數將缺少正則化,而且決策邊界將對訓練數據中的噪聲高度敏感。

 

2.4指數的內核

指數核與高斯核密切相關,只有正態的平方被忽略。 它也是一個徑向基函數內核。

表達式:。和高斯核確實很像,哈哈。

2.5 拉普拉斯算子核

拉普拉斯核心徹底等同於指數內核,除了對sigma參數的變化不那麼敏感。 做爲等價的,它也是一個徑向基函數內核。

 

表達式:

重要的是注意,關於高斯內核的σ參數的觀察也適用於指數和拉普拉斯內核。

 

好了今天就講到這裏,下次有時間在來和你們分享其餘的核函數吧。。。若是感受我寫的還能夠,麻煩點個粉,或者點一個推薦哦。

相關文章
相關標籤/搜索