嶺迴歸的歷史可追溯到1943年由A.Tikhonov發表在《蘇聯科學院院刊》上的一篇文章,咱們知道計算機是在1946年發明出來的,因而可知,這是一個歷史悠久的算法,至今依舊有生命力,屬於經典算法之一。算法
嶺迴歸,是線性迴歸的L2正則化方式。本質上是一種迴歸。函數
給定數據集D = {(x1,y1),(x2,y2),...,(xm,ym)},其中xϵR^d dimension,yϵR。咱們考慮最簡單的線性迴歸模型,以平方偏差爲損失函數:post
對於正則化不太瞭解的朋友能夠看我這一篇文章《L1與L2正則化》,可是咱們這裏對於正則化有一些更加深刻的理解。學習
正則化(Regularization)是在被優化的目標函數中,添加一項與常數因子λ相乘(有時候也使用α)的參數,這一項就叫作正則項。咱們很容易知道,因爲目標函數老是向最小化方向發展,則被加進來的這一項會受到懲罰使之更傾向於小。具體的理解能夠參考個人《L1與L2正則化》。如下是線性迴歸帶正則化的目標函數表達式。優化
帶L1正則化的線性迴歸的目標函數:spa
帶L2正則化的線性迴歸的目標函數,也就是咱們提到的嶺迴歸:cdn
以上是正則化的感性認識以及其工做原理。咱們經常使用的正則化爲L1和L2正則化,也稱L1範數正則化與L2範數正則化。這兩種正則化均可以用來下降過擬合的風險,可是L1正則化比L2正則化多一個優點在於,其能夠更容易得到稀疏(sparse)解,即其會有更少的非零份量。blog
我舉一個直觀的例子。假設x僅僅有兩個屬性,因而根據線性迴歸的目標函數求解,w都以後有兩個份量。即w1與w2,以此爲座標軸,畫出一個座標系。如圖所示 get
那麼咱們取在這個(w1,w2)空間裏平方偏差取值同樣的點連成線,就成了咱們的平方偏差項等值線。再畫出L1,L2範數的等值線,即在(w1,w2)空間中L1範數與L2範數取值相同的點的連線,如圖所示。咱們知道,平方偏差等值線與正則化項等值線的交點爲帶正則化項的線性迴歸目標函數的解。咱們從圖中能夠看出,平方偏差等值線與L1正則化等值線的交點,在座標軸的頻率更高,即w1或w2爲0;二平方偏差等值線與L2正則化等值線的交點更容易出如今象限中,即w1與w2均不爲0。因而可知,採用L1範數正則化比L2範數更容易獲得稀疏解。it
注意到w取得稀疏解則意味着初始的d個特徵中僅有對應着w的非零份量的特徵纔會出如今最終模型中,因此求得的結果是獲得了僅採用一部分初始特徵的模型。咱們即可以將L1鄭澤華的學習方法視爲一種特徵選擇方法,刪掉了部分特徵(特徵爲0),特徵選擇過程與學習器訓練過程融爲一體,同時完成。