機器學習中內核的祕密:著名案例教你構建它!

全文共1576字,預計學習時長3分鐘算法

內核是映射空間中兩個向量之間的類似性度量(關於內核的詳細狀況,請參考文末連接)。本文將帶你瞭解一些有名的內核,以及如何組合它們生成其餘內核。微信

注意:在本文的例子中,爲達到繪圖目的,x’是一維的向量,而且把x ’的值固定爲2。機器學習

線性核函數

這個內核的超參數是標準差和偏移量參數c。直觀地講,這個內核是什麼意思?若是取一個特定的x並將它與全部其餘的x’進行比較,會獲得一條直線。這就是爲何它被稱爲線性核。固定x和變量x’表示正沿着直線移動。學習

它另外一個特色是非平穩,指它的值是關於x’的絕對位置而不是相對位置變化的。另外一個好處是因爲它是線性的,因此在優化中能頗有效進行計算。優化

多項式核人工智能

正如名稱所示,這個內核是一個多項式函數和offset c。這值得花一點時間並思考造成這個內核的映射函數ϕ,若是記得內核是映射空間中的一個類似度函數(數量積)——因此它返回了一個標量。2等多項式核的映射函數在二維空間中是這樣的:設計

當增長輸入維數d和多項式次數時,映射獲得的特徵空間會變得很大。好處是能夠計算數量積而不須要作變換,如上面的公式所示。這是衆多內核理論的公示之一。3d

徑向基函數核blog

這是一個頗有名且常用的內核。因爲指數中的負指數,指數的取值範圍從0到1。由於能夠說,1表示很相近或相同,接近0表示徹底不一樣,這是一個很好的特徵。σ參數指數控制內核的靈敏度。對於低的σ,只有真正接近的點纔是相近的。爲了一個更大的σ要放鬆類似性的標準,由於一個距離更遠的點會更相近。

固然,內核這樣是由於x被固定在0和變量x’上,邏輯上足夠去計算在整個x區域點之間的類似性。這暗示了一個平面,實際上這個平面就是內核含義的例子:

不盡人意的是,內核的值在對角線處最高,在這裏x 和x '是同樣的。

週期核

當考慮週期性時,天然會想到周期函數,好比正弦和餘弦。邏輯上來講,週期核有正弦函數。內核的超參數一樣是特定類似性的靈敏度σ,但除此以外,有特定正弦函數週期的參數p。這徹底有道理。另外,注意徑向基核和週期核之間的類似性,它們都被限制輸出值在0和1之間。

何時想要使用週期核呢?這是頗有邏輯的,假設想要建一個正弦函數。只從這個函數中取兩個關於歐氏距離較遠的點,並不意味着函數的值意義不一樣。爲了解決這類問題,須要週期核。爲了完整起見,看看當調整週期核的週期性時會發生什麼(沒有什麼意外):

局部週期核

獲得這個內核的方法基本上就是用徑向基核乘以週期核。結果是,獲得的內核值還會隨着x和x '之間的距離而變化,而不只僅是隨着距離的週期性變化。這致使了所謂的局部週期性。

 

用3D來繪製這個內核,獲得了以下特別的形狀:

看起來很酷!

構建新內核

如今已經看到了一些內核的例子。問題是須要什麼來構建新的內核呢?內核有兩大特徵:

1. 添加含有內核的內核將生成一個新的內核。

2. 內核相乘會產生一個新的內核。

這些能基本構建有意義的內核,自己不須要太多數學運算,並且很是直觀。乘法能夠看做是一個and運算,特別是考慮到內核在0和1之間。所以,將週期核與徑向基函數核相結合,能夠獲得局部週期核。

這些例子能夠幫助開始探索內核。固然,這只是剛剛觸及到全部有趣內核的表面部分。針對問題進行的內核設計是一個重要的任務。要作好這件事須要必定的經驗。此外,機器學習中還有一個專門研究內核函數的領域。

因爲算法的要求,內核設計也會很棘手。由於許多基於內核的算法都涉及到Gram矩陣倒置,因此要求內核是正定的。

參考:《機器學習的內核祕密》

傳送門:https://towardsdatascience.com/kernel-secrets-in-machine-learning-2aab4c8a295f

留言 點贊 關注

咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」

(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)

相關文章
相關標籤/搜索