爲何L1 regularization能夠用來作特徵選擇

根據最優化理論,在損失函數上增長正則項其實等價於正則項有限制條件的狀況下最小化損失函數。例如,帶正則項的目標函數爲: 函數

 (1) 優化

等價於在條件 spa

 (2) ci

下,最小化least squares的損失函數。這兩種等價形式能夠根據拉格朗日乘子法關聯起來。(1)中的Lambda越大,(2)中的Yita就越小。 it

那麼很顯然,選擇更大的Lambda,就會使得w的值限制更嚴格,趨於更小的值。 io

在(2)中,不一樣的q值,對應了w的不一樣的可行解(?)空間。下圖是2維參數空間裏,不一樣q值產生的可行解空間的邊界。座標軸分別是我w1 和 w2 ast

若是目標函數是凸的,且最優解不在可行解空間內(不然正則項不起做用),那麼顯然q <= 1 相比於 q > 1的狀況,會有更大的可能性在座標軸上取得極小值——該座標軸對應的w值爲0。 class


reference: im

http://www.andrewng.org/portfolio/efficient-l1-regularized-logistic-regression/ img

相關文章
相關標籤/搜索