機器學習基石筆記14——機器能夠怎樣學得更好(2)

轉載請註明出處:http://www.cnblogs.com/ymingjingr/p/4271742.htmlhtml

目錄

機器學習基石筆記1——在什麼時候可使用機器學習(1)

機器學習基石筆記2——在什麼時候可使用機器學習(2)

機器學習基石筆記3——在什麼時候可使用機器學習(3)(修改版)

機器學習基石筆記4——在什麼時候可使用機器學習(4)

機器學習基石筆記5——爲何機器能夠學習(1)

機器學習基石筆記6——爲何機器能夠學習(2)

機器學習基石筆記7——爲何機器能夠學習(3)

機器學習基石筆記8——爲何機器能夠學習(4)

機器學習基石筆記9——機器能夠怎樣學習(1)

機器學習基石筆記10——機器能夠怎樣學習(2)

機器學習基石筆記11——機器能夠怎樣學習(3)

機器學習基石筆記12——機器能夠怎樣學習(4)

機器學習基石筆記13——機器能夠怎樣學得更好(1)

機器學習基石筆記14——機器能夠怎樣學得更好(2)

機器學習基石筆記15——機器能夠怎樣學得更好(3)

機器學習基石筆記16——機器能夠怎樣學得更好(4)

十4、Regularization

正則化。算法

14.1 Regularized Hypothesis Set

正則化假設。app

上一章中提到了防止過擬合的五種措施,本章將介紹其中一種措施,正則化(Regularization)。機器學習

正則化的主要思想:將假設函從高次多項式的數降至低次,如同開車時的踩剎車,將速度下降,效果圖如圖14-1所示,右圖表示高次多項式函數,明顯產生了過擬合現象,而左圖的表示使用正則化後的低次函數。函數

 

圖14-1 正則化擬合與過擬合學習

 

已知高次多項式包含低次多項式,所以高次函數和低次函數的關係如圖14-2所示,本章的內容是在使用高次函數過擬合時,如何將假設函數下降爲低次,即如何從外圍的大圈中迴歸到內部的小圈。優化

 

圖14-2 高次函數與低次函數的關係圖spa

 

"正則化"這個詞來自於不適定問題(ill-posed problem)的函數逼近(function approximation),即在函數逼近中出現多個解,如何選擇解的問題。設計

如何降次?該問題使用到前幾章中提到的多項式轉換與線性迴歸的知識,把降次的問題轉換成帶有限制(constraint)條件的問題。如下以10次多項式與二次式爲例瞭解正則化,假設w的表達式分別如公式14-1與公式14-2。orm

 

    (公式14-1)

 

    (公式14-2)

 

公式14-2可使用公式14-1加上以下限制條件表示,

 

所以10次多項式的假設空間與最小 的表達式分別如公式14-3和公式14-4。

 

    (公式14-3)

 

    (公式14-4)

 

經過上述結論,2次式的假設空間與最小的表達式分別如公式14-5和公式14-6。

 

    (公式14-5)

 

    (公式14-6)

 

若是將的條件設計的更寬鬆,表示成的形式,如公式14-7所示。

 

    (公式14-7)

 

所以求的最優化的問題如公式14-8所示。

 

    (公式14-8)

 

該假設空間與的關係如公式14-9所示。

 

    (公式14-9)

 

假設空間又被稱做稀疏(sparse)的假設空間,由於不少參數爲0。注意公式14-8限制中的 函數,代表該最優化問題爲一個NP難問題。所以必須繼續改進假設函數,產生假設空間如公式14-10所示。

 

    (公式14-10)

 

假設空間最優化的問題如公式14-11所示。

 

    (公式14-11)

 

有重疊部分,可是並不徹底一致。隨着C的增大, 的假設空間也在增大,能夠獲得如公式14-12所示。

 

    (公式14-12)

 

稱假設空間爲正則化假設空間,即假設限制條件的假設空間。正則化假設空間中最好的假設用符號 表示。

 

14.2 Weight Decay Regularization

權值衰減正則化。

爲了表述的簡便,將上一節的最優化公式14-11寫成向量矩陣的形式,如公式14-13所示。

 

    (公式14-13)

 

插一句,一般解釋帶有限制條件的最優化問題都會引用拉格朗日函數,林老師更深刻的解釋了拉格朗日乘子背後的因素。

首先繪製有限制條件的最優化示意圖,圖中藍色部分爲,紅色部分爲限制條件,從表達公式不可貴出二者一個爲橢圓,一個爲圓形(在高維空間中式超球體)。

 

圖14-4 有限制條件的最優化示意圖

 

從前面的章節中瞭解在求解最小時,可用梯度的反方向,即 做爲降低方向,可是與迴歸問題還有一些不一樣,此處多了限制條件,所以降低的方向不能夠超出限制的範圍,如圖14-3中紅色的向量爲限制圓球切線的法向量,朝着該方向降低便超出了限制的範圍,所以只能夠沿着球切線的方向滾動,如圖14-3中綠色的向量。什麼時候降到最小?即實際滾動方向(圖中藍色的向量)不存在與球切線方向相同的份量,換句話說與球切線的法向量w相平行,如公式14-14所示,其中表示正則化最優解。

 

    (公式14-14)

 

加入拉格朗日乘子 ,可寫成等式的形式,如公式14-15.

 

    (公式14-15)

 

將線性迴歸中求得的表達式(9.2節中求導過程)代入公式14-15,得公式14-16.

 

    (公式14-16)

 

求出的表達式如公式14-17。

 

    (公式14-17)

 

其中是半正定的,所以只要,則保證爲正定矩陣,必可逆。該回歸形式被稱爲嶺迴歸(ridge regression)。

是否還記得線性迴歸的直接形式,如公式14-18所示。

 

    (公式14-18)

 

對公式14-15作成積分得公式14-19。

 

        (公式14-19)

 

求公式14-19的最小解問題等價於公式14-19。其中該表達式稱爲增廣錯誤(augmented error),用 表示,其中爲正則化項(regularizer)。用無限制條件的取代了上節中提到的有限制條件的。實際上使用了拉格朗日函數,但林老師是反推過去,之因此叫作增廣錯誤,是由於比傳統的多了一正則化項。在時(的狀況是線性迴歸的求解),最小w的求解公式如公式14-20所示。

 

    (公式14-20)

 

所以,不須要給出上一節中有條件的最小化問題中包含的參數C,而只須要給出增廣錯誤中的參數

觀察參數對最終求得的的影響,如圖14-5。

 

圖14-5 參數對最終求得的的影響

 

時,過擬合,隨着的不斷增大變成了欠擬合狀態。越大的對應着越短的權值向量w,同時也對應着越小的約束半徑C。(記得14.1節中如何處理欠擬合嗎?將C儘可能縮小,準確的說尋找小的權值向量w),所以這種將w變小的正則化,即加上的正則化稱爲權重衰減(weight-decay)正則化。此種正則化,能夠和任意的轉換函數及任意的線性模型結合。

注意:在作多項式轉換時,假設 ,多項式轉換函數爲 則在高次項 上時,數值很是小,爲了和低次項對應的權值向量份量產生一致的影響力,則該項的權值 必定很是大,可是正則化求解須要特別小的權值向量w,所以須要轉換後的多項式各項線性無關,即轉換函數爲,其各項爲正交基函數(orthonormal basis functions),此多項式稱爲勒讓德多項式(Legendre polynomials),多項式的前5項如圖14-6所示。

 

圖14-6 勒讓德多項式的前5項表示

 

14.3 Regularization and VC Theory

正則化與VC理論。

本節介紹正則化與VC理論的關係。即從VC理論的角度說明爲何正則化的效果好(14.1節從過擬合的角度介紹正則化好的緣由)。

最小化帶限制條件的與最小化等價,由於參數C相似與參數 。經過7.4節的知識得知,的上限能夠表示爲公式14-21的形式。

 

    (公式14-21)

 

所以,VC限制間接的保證了最小化能夠獲得最小的

便於觀察對比,將的表達式重複寫一遍,如公式14-22。

 

    (公式14-22)

 

上限更通常的形式能夠寫成公式14-23。

 

    (14-23)

 

經過公式14-22與公式14-23的對比,更容易理解最小化能得到比最小化更好效果的緣由。如公式14-22中正則化項表示一個假設函數的複雜度;而公式14-23中的表示整個假設空間的複雜度,若是,其中表示該假設的複雜度)很好的表明,則表現的更好。

上述是經過VC限制經過一個啓發式的方式說明正則化的優點,接下來經過VC維闡述正則化的好處。

將最小化的形式寫成公式14-24。

 

    (公式14-24)

 

按第七章的理論,VC維 , 在求解最小化時全部的假設函數 都將被考慮。可是由於參數C或者更直接的來講參數 的限制,實際被考慮的只有 。所以有效的VC維 與兩部分相關:假設空間H及算法A。實際的VC維很小意味着模型複雜度很低。

 

14.4 General Regularizers

通常化的正則化項。

本章的前幾節介紹的正則化項是權值衰減的正則化項(weight-decay (L2) regularizer),或稱爲L2正則化項,標量形式爲 ,向量形式爲。那麼更通常的正則化項應該如何設計,或者通常化的正則化項的設計原則是什麼?主要分爲三點,以下:

依據目標函數(target-dependent),即根據目標函數的性質設計正則化項,如某目標函數是對稱函數,所以權值向量的全部奇數份量應被抑制,能夠設計成 的形式,在奇數時增長;

能夠說得通(plausible):正則化項應儘量地平滑(smooth)或簡單(simpler),由於不管是隨機性噪音仍是肯定性噪音都不是平滑的。平滑表示可微,如L2。簡單表示容易求解,如L1正則化項或稀疏(sparsity)正則化項: ,稍後介紹;

友好:易於最優化的求解。如L2。

即便設計的正則化項很差也不用擔憂,由於還存在一個參數 ,當其爲0時,則正則化項不起做用。

回憶8.3節,錯誤衡量的設計原則,與此相似,依據用戶(user-dependent),說得通,友好。

所以最終的增廣錯誤由錯誤函數和正則化項兩部分組成,如公式14-25所示。

 

        (公式14-25)

 

經過比較經常使用的兩種正則化項(L2和L1)具體的解釋上述設計原則。

L2的正則化示意圖如圖14-7所示,正則化項如公式14-26。

 

圖14-7 L2正則化示意圖

 

        (公式14-26)

 

該正則化項在爲凸函數,在每一個位置均可以微分,所以比較容易計算。

再介紹一種新的正則化項L1,其示意圖如圖14-8所示正則化項如公式14-27。

 

圖14-8 L1正則化項示意圖

 

        (公式14-27)

 

一樣也是凸圖形,可是並非全部的位置均可微,如轉角處。爲什麼成爲稀疏?假設菱形法相w全是不爲零的份量,所以微分得的向量爲份量全爲1的向量。若是與該全爲1的向量不平行,則向量一直會沿着菱形邊界移動到頂點處,所以在頂點處產生最優解,最優解含有值爲0的份量,所以爲稀疏的解,計算速度快。

在結束本章前,觀察在不一樣噪音狀況下,參數如何選擇。目標函數設計成15次多項式函數,如圖14-9表示固定肯定性噪音,不一樣隨機性噪音下,參數最佳選擇,橫座標表示參數的選擇,縱座標表示 ,其中加粗的點表示在該種噪音狀況下參數的最佳取值。(此處由於是爲了觀察在不一樣噪音下如何選擇參數,目標函數是已知的,因此能夠求出,現實中是不可能的,下一個例子也是如此,再也不重複解釋)

 

圖14-9 不一樣隨機性噪音下參數的選擇

 

目標函數設計成15次多項式函數,如圖14-10表示固定隨機性噪音,不一樣肯定性噪音下,參數最佳選擇,橫座標表示參數的選擇,縱座標表示,其中加粗的點表示在該種噪音狀況下參數的最佳取值。

 

圖14-10不一樣肯定性噪音下參數的選擇

 

從上述兩個圖中不可貴出,越大的噪音須要越大的正則化,這如同越顛簸的路,越須要踩剎車同樣。可是一個更重要的問題卻沒有解決,即在噪音未知的狀況下,如何選擇參數,這是下章的內容。

相關文章
相關標籤/搜索