Machine Learning系列--L0、L一、L2範數

時間 2019-12-07

標籤 machine learning 系列 l0 l2 简体版

原文原文鏈接

今天咱們聊聊機器學習中出現的很是頻繁的問題：過擬合與規則化。咱們先簡單的來理解下經常使用的L0、L一、L2和核範數規則化。最後聊下規則化項參數的選擇問題。這裏由於篇幅比較龐大，爲了避免嚇到你們，我將這個五個部分分紅兩篇博文。知識有限，如下都是我一些淺顯的見解，若是理解存在錯誤，但願你們不吝指正。謝謝。算法

監督機器學習問題無非就是「minimizeyour error while regularizing your parameters」，也就是在規則化參數的同時最小化偏差。最小化偏差是爲了讓咱們的模型擬合咱們的訓練數據，而規則化參數是防止咱們的模型過度擬合咱們的訓練數據。多麼簡約的哲學啊！由於參數太多，會致使咱們的模型複雜度上升，容易過擬合，也就是咱們的訓練偏差會很小。但訓練偏差小並非咱們的最終目標，咱們的目標是但願模型的測試偏差小，也就是能準確的預測新的樣本。因此，咱們須要保證模型「簡單」的基礎上最小化訓練偏差，這樣獲得的參數才具備好的泛化性能（也就是測試偏差也小），而模型「簡單」就是經過規則函數來實現的。另外，規則項的使用還能夠約束咱們的模型的特性。這樣就能夠將人對這個模型的先驗知識融入到模型的學習當中，強行地讓學習到的模型具備人想要的特性，例如稀疏、低秩、平滑等等。要知道，有時候人的先驗是很是重要的。前人的經驗會讓你少走不少彎路，這就是爲何咱們平時學習最好找個大牛帶帶的緣由。一句點撥能夠爲咱們撥開眼前烏雲，還咱們一片晴空萬里，醍醐灌頂。對機器學習也是同樣，若是被咱們人稍微點撥一下，它確定能更快的學習相應的任務。只是因爲人和機器的交流目前尚未那麼直接的方法，目前這個媒介只能由規則項來擔當了。機器學習

還有幾種角度來看待規則化的。規則化符合奧卡姆剃刀(Occam's razor)原理。這名字好霸氣，razor！不過它的思想很平易近人：在全部可能選擇的模型中，咱們應該選擇可以很好地解釋已知數據而且十分簡單的模型。從貝葉斯估計的角度來看，規則化項對應於模型的先驗機率。民間還有個說法就是，規則化是結構風險最小化策略的實現，是在經驗風險上加一個正則化項(regularizer)或懲罰項(penalty term)。函數

通常來講，監督學習能夠看作最小化下面的目標函數：性能

其中，第一項L(y_i,f(x_i;w)) 衡量咱們的模型（分類或者回歸）對第i個樣本的預測值f(x_i;w)和真實的標籤y_i以前的偏差。由於咱們的模型是要擬合咱們的訓練樣本的嘛，因此咱們要求這一項最小，也就是要求咱們的模型儘可能的擬合咱們的訓練數據。但正如上面說言，咱們不只要保證訓練偏差最小，咱們更但願咱們的模型測試偏差小，因此咱們須要加上第二項，也就是對參數w的規則化函數Ω(w)去約束咱們的模型儘可能的簡單。學習

OK，到這裏，若是你在機器學習浴血奮戰多年，你會發現，哎喲喲，機器學習的大部分帶參模型都和這個不但形似，並且神似。是的，其實大部分無非就是變換這兩項而已。對於第一項Loss函數，若是是Square loss，那就是最小二乘了；若是是Hinge Loss，那就是著名的SVM了；若是是exp-Loss，那就是牛逼的 Boosting了；若是是log-Loss，那就是Logistic Regression了；還有等等。不一樣的loss函數，具備不一樣的擬合特性，這個也得就具體問題具體分析的。但這裏，咱們先不究loss函數的問題，咱們把目光轉向「規則項Ω(w)」。測試

規則化函數Ω(w)也有不少種選擇，通常是模型複雜度的單調遞增函數，模型越複雜，規則化值就越大。好比，規則化項能夠是模型參數向量的範數。然而，不一樣的選擇對參數w的約束不一樣，取得的效果也不一樣，但咱們在論文中常見的都彙集在：零範數、一範數、二範數、跡範數、Frobenius範數和核範數等等。這麼多範數，到底它們表達啥意思？具備啥能力？何時才能用？何時須要用呢？不急不急，下面咱們挑幾個常見的娓娓道來。優化

1、L0範數與L1範數google

L0範數是指向量中非0的元素的個數。若是咱們用L0範數來規則化一個參數矩陣W的話，就是但願W的大部分元素都是0。這太直觀了，太露骨了吧，換句話說，讓參數W是稀疏的。OK，看到了「稀疏」二字，你們都應該從當下風風火火的「壓縮感知」和「稀疏編碼」中醒悟過來，原來用的漫山遍野的「稀疏」就是經過這玩意來實現的。但你又開始懷疑了，是這樣嗎？看到的papers世界中，稀疏不是都經過L1範數來實現嗎？腦海裏是否是處處都是||W||₁影子呀！幾乎是擡頭不見低頭見。沒錯，這就是這節的題目把L0和L1放在一塊兒的緣由，由於他們有着某種不尋常的關係。那咱們再來看看L1範數是什麼？它爲何能夠實現稀疏？爲何你們都用L1範數去實現稀疏，而不是L0範數呢？編碼

L1範數是指向量中各個元素絕對值之和，也有個美稱叫「稀疏規則算子」（Lasso regularization）。如今咱們來分析下這個價值一個億的問題：爲何L1範數會使權值稀疏？有人可能會這樣給你回答「它是L0範數的最優凸近似」。實際上，還存在一個更美的回答：任何的規則化算子，若是他在W_i=0的地方不可微，而且能夠分解爲一個「求和」的形式，那麼這個規則化算子就能夠實現稀疏。這說是這麼說，W的L1範數是絕對值，|w|在w=0處是不可微，但這仍是不夠直觀。這裏由於咱們須要和L2範數進行對比分析。因此關於L1範數的直觀理解，請待會看看第二節。spa

對了，上面還有一個問題：既然L0能夠實現稀疏，爲何不用L0，而要用L1呢？我的理解一是由於L0範數很難優化求解（NP難問題），二是L1範數是L0範數的最優凸近似，並且它比L0範數要容易優化求解。因此你們才把目光和萬千寵愛轉於L1範數。

OK，來個一句話總結：L1範數和L0範數能夠實現稀疏，L1因具備比L0更好的優化求解特性而被普遍應用。

好，到這裏，咱們大概知道了L1能夠實現稀疏，但咱們會想呀，爲何要稀疏？讓咱們的參數稀疏有什麼好處呢？這裏扯兩點：

1）特徵選擇(Feature Selection)：

你們對稀疏規則化趨之若鶩的一個關鍵緣由在於它能實現特徵的自動選擇。通常來講，x_i的大部分元素（也就是特徵）都是和最終的輸出y_i沒有關係或者不提供任何信息的，在最小化目標函數的時候考慮x_i這些額外的特徵，雖然能夠得到更小的訓練偏差，但在預測新的樣本時，這些沒用的信息反而會被考慮，從而干擾了對正確y_i的預測。稀疏規則化算子的引入就是爲了完成特徵自動選擇的光榮使命，它會學習地去掉這些沒有信息的特徵，也就是把這些特徵對應的權重置爲0。

2）可解釋性(Interpretability)：

另外一個青睞於稀疏的理由是，模型更容易解釋。例如患某種病的機率是y，而後咱們收集到的數據x是1000維的，也就是咱們須要尋找這1000種因素究竟是怎麼影響患上這種病的機率的。假設咱們這個是個迴歸模型：y=w₁*x₁+w₂*x₂+…+w₁₀₀₀*x₁₀₀₀+b（固然了，爲了讓y限定在[0,1]的範圍，通常還得加個Logistic函數）。經過學習，若是最後學習到的w*就只有不多的非零元素，例如只有5個非零的w_i，那麼咱們就有理由相信，這些對應的特徵在患病分析上面提供的信息是巨大的，決策性的。也就是說，患不患這種病只和這5個因素有關，那醫生就好分析多了。但若是1000個w_i都非0，醫生面對這1000種因素，累覺不愛。

2、L2範數

除了L1範數，還有一種更受寵幸的規則化範數是L2範數: ||W||₂。它也不遜於L1範數，它有兩個美稱，在迴歸裏面，有人把有它的迴歸叫「嶺迴歸」（Ridge Regression），有人也叫它「權值衰減weight decay」。這用的不少吧，由於它的強大功效是改善機器學習裏面一個很是重要的問題：過擬合。至於過擬合是什麼，上面也解釋了，就是模型訓練時候的偏差很小，但在測試的時候偏差很大，也就是咱們的模型複雜到能夠擬合到咱們的全部訓練樣本了，但在實際預測新的樣本的時候，糟糕的一塌糊塗。通俗的講就是應試能力很強，實際應用能力不好。擅長背誦知識，卻不懂得靈活利用知識。例以下圖所示（來自Ng的course）：

上面的圖是線性迴歸，下面的圖是Logistic迴歸，也能夠說是分類的狀況。從左到右分別是欠擬合（underfitting，也稱High-bias）、合適的擬合和過擬合（overfitting，也稱High variance）三種狀況。能夠看到，若是模型複雜（能夠擬合任意的複雜函數），它可讓咱們的模型擬合全部的數據點，也就是基本上沒有偏差。對於迴歸來講，就是咱們的函數曲線經過了全部的數據點，如上圖右。對分類來講，就是咱們的函數曲線要把全部的數據點都分類正確，以下圖右。這兩種狀況很明顯過擬合了。

OK，那如今到咱們很是關鍵的問題了，爲何L2範數能夠防止過擬合？回答這個問題以前，咱們得先看看L2範數是個什麼東西。

L2範數是指向量各元素的平方和而後求平方根。咱們讓L2範數的規則項||W||₂最小，可使得W的每一個元素都很小，都接近於0，但與L1範數不一樣，它不會讓它等於0，而是接近於0，這裏是有很大的區別的哦。而越小的參數說明模型越簡單，越簡單的模型則越不容易產生過擬合現象。爲何越小的參數說明模型越簡單？我也不懂，個人理解是：限制了參數很小，實際上就限制了多項式某些份量的影響很小（看上面線性迴歸的模型的那個擬合的圖），這樣就至關於減小參數個數。其實我也不太懂，但願你們能夠指點下。

這裏也一句話總結下：經過L2範數，咱們能夠實現了對模型空間的限制，從而在必定程度上避免了過擬合。

L2範數的好處是什麼呢？這裏也扯上兩點：

1）學習理論的角度：

從學習理論的角度來講，L2範數能夠防止過擬合，提高模型的泛化能力。

2）優化計算的角度：

從優化或者數值計算的角度來講，L2範數有助於處理 condition number很差的狀況下矩陣求逆很困難的問題。哎，等等，這condition number是啥？我先google一下哈。

這裏咱們也故做高雅的來聊聊優化問題。優化有兩大難題，一是：局部最小值，二是：ill-condition病態問題。前者俺就不說了，你們都懂吧，咱們要找的是全局最小值，若是局部最小值太多，那咱們的優化算法就很容易陷入局部最小而不能自拔，這很明顯不是觀衆願意看到的劇情。那下面咱們來聊聊ill-condition。ill-condition對應的是well-condition。那他們分別表明什麼？假設咱們有個方程組AX=b，咱們須要求解X。若是A或者b稍微的改變，會使得X的解發生很大的改變，那麼這個方程組系統就是ill-condition的，反之就是well-condition的。咱們具體舉個例子吧：

我們先看左邊的那個。第一行假設是咱們的AX=b，第二行咱們稍微改變下b，獲得的x和沒改變前的差異很大，看到吧。第三行咱們稍微改變下係數矩陣A，能夠看到結果的變化也很大。換句話來講，這個系統的解對係數矩陣A或者b太敏感了。又由於通常咱們的係數矩陣A和b是從實驗數據裏面估計獲得的，因此它是存在偏差的，若是咱們的系統對這個偏差是能夠容忍的就還好，但系統對這個偏差太敏感了，以致於咱們的解的偏差更大，那這個解就太不靠譜了。因此這個方程組系統就是ill-conditioned病態的，不正常的，不穩定的，有問題的，哈哈。這清楚了吧。右邊那個就叫well-condition的系統了。

仍是再囉嗦一下吧，對於一個ill-condition的系統，個人輸入稍微改變下，輸出就發生很大的改變，這很差啊，這代表咱們的系統不能實用啊。你想一想看，例如對於一個迴歸問題y=f(x)，咱們是用訓練樣本x去訓練模型f，使得y儘可能輸出咱們期待的值，例如0。那假如咱們遇到一個樣本x’，這個樣本和訓練樣本x差異很小，面對他，系統本應該輸出和上面的y差很少的值的，例如0.00001，最後卻給我輸出了一個0.9999，這很明顯不對呀。就好像，你很熟悉的一我的臉上長了個青春痘，你就不認識他了，那你大腦就太差勁了，哈哈。因此若是一個系統是ill-conditioned病態的，咱們就會對它的結果產生懷疑。那到底要相信它多少呢？咱們得找個標準來衡量吧，由於有些系統的病沒那麼重，它的結果仍是能夠相信的，不能一刀切吧。終於回來了，上面的condition number就是拿來衡量ill-condition系統的可信度的。condition number衡量的是輸入發生微小變化的時候，輸出會發生多大的變化。也就是系統對微小變化的敏感度。condition number值小的就是well-conditioned的，大的就是ill-conditioned的。

若是方陣A是非奇異的，那麼A的conditionnumber定義爲：

也就是矩陣A的norm乘以它的逆的norm。因此具體的值是多少，就要看你選擇的norm是什麼了。若是方陣A是奇異的，那麼A的condition number就是正無窮大了。實際上，每個可逆方陣都存在一個condition number。但若是要計算它，咱們須要先知道這個方陣的norm（範數）和Machine Epsilon（機器的精度）。爲何要範數？範數就至關於衡量一個矩陣的大小，咱們知道矩陣是沒有大小的，當上面不是要衡量一個矩陣A或者向量b變化的時候，咱們的解x變化的大小嗎？因此確定得要有一個東西來度量矩陣和向量的大小吧？對了，他就是範數，表示矩陣大小或者向量長度。OK，通過比較簡單的證實，對於AX=b，咱們能夠獲得如下的結論：

也就是咱們的解x的相對變化和A或者b的相對變化是有像上面那樣的關係的，其中k(A)的值就至關於倍率，看到了嗎？至關於x變化的界。

對condition number來個一句話總結：conditionnumber是一個矩陣（或者它所描述的線性系統）的穩定性或者敏感度的度量，若是一個矩陣的condition number在1附近，那麼它就是well-conditioned的，若是遠大於1，那麼它就是ill-conditioned的，若是一個系統是ill-conditioned的，它的輸出結果就不要太相信了。

好了，對這麼一個東西，已經說了好多了。對了，咱們爲何聊到這個的了？回到第一句話：從優化或者數值計算的角度來講，L2範數有助於處理 condition number很差的狀況下矩陣求逆很困難的問題。由於目標函數若是是二次的，對於線性迴歸來講，那其實是有解析解的，求導並令導數等於零便可獲得最優解爲：

然而，若是當咱們的樣本X的數目比每一個樣本的維度還要小的時候，矩陣X^TX將會不是滿秩的，也就是X^TX會變得不可逆，因此w*就沒辦法直接計算出來了。或者更確切地說，將會有無窮多個解（由於咱們方程組的個數小於未知數的個數）。也就是說，咱們的數據不足以肯定一個解，若是咱們從全部可行解裏隨機選一個的話，極可能並非真正好的解，總而言之，咱們過擬合了。

但若是加上L2規則項，就變成了下面這種狀況，就能夠直接求逆了：

這裏面，專業點的描述是：要獲得這個解，咱們一般並不直接求矩陣的逆，而是經過解線性方程組的方式（例如高斯消元法）來計算。考慮沒有規則項的時候，也就是λ=0的狀況，若是矩陣X^TX的 condition number 很大的話，解線性方程組就會在數值上至關不穩定，而這個規則項的引入則能夠改善condition number。

另外，若是使用迭代優化的算法，condition number 太大仍然會致使問題：它會拖慢迭代的收斂速度，而規則項從優化的角度來看，其實是將目標函數變成λ-strongly convex（λ強凸）的了。哎喲喲，這裏又出現個λ強凸，啥叫λ強凸呢？

當f知足：

時，咱們稱f爲λ-stronglyconvex函數，其中參數λ>0。當λ=0時退回到普通convex 函數的定義。

在直觀的說明強凸以前，咱們先看看普通的凸是怎樣的。假設咱們讓f在x的地方作一階泰勒近似（一階泰勒展開忘了嗎？f(x)=f(a)+f'(a)(x-a)+o(||x-a||).）：

直觀來說，convex 性質是指函數曲線位於該點處的切線，也就是線性近似之上，而 strongly convex 則進一步要求位於該處的一個二次函數上方，也就是說要求函數不要太「平坦」而是能夠保證有必定的「向上彎曲」的趨勢。專業點說，就是convex 能夠保證函數在任意一點都處於它的一階泰勒函數之上，而strongly convex能夠保證函數在任意一點都存在一個很是漂亮的二次下界quadratic lower bound。固然這是一個很強的假設，可是同時也是很是重要的假設。可能還很差理解，那咱們畫個圖來形象的理解下。

你們一看到上面這個圖就全明白了吧。不用我囉嗦了吧。仍是囉嗦一下吧。咱們取咱們的最優解w*的地方。若是咱們的函數f(w)，見左圖，也就是紅色那個函數，都會位於藍色虛線的那根二次函數之上，這樣就算w_t和w*離的比較近的時候，f(w_t)和f(w*)的值差異仍是挺大的，也就是會保證在咱們的最優解w*附近的時候，還存在較大的梯度值，這樣咱們才能夠在比較少的迭代次數內達到w*。但對於右圖，紅色的函數f(w)只約束在一個線性的藍色虛線之上，假設是如右圖的很不幸的狀況（很是平坦），那在w_t還離咱們的最優勢w*很遠的時候，咱們的近似梯度(f(w_t)-f(w*))/(w_t-w*)就已經很是小了，在w_t處的近似梯度∂f/∂w就更小了，這樣經過梯度降低w_t+1=w_t-α*(∂f/∂w)，咱們獲得的結果就是w的變化很是緩慢，像蝸牛同樣，很是緩慢的向咱們的最優勢w*爬動，那在有限的迭代時間內，它離咱們的最優勢仍是很遠。

因此僅僅靠convex 性質並不能保證在梯度降低和有限的迭代次數的狀況下獲得的點w會是一個比較好的全局最小點w*的近似點（插個話，有地方說，實際上讓迭代在接近最優的地方中止，也是一種規則化或者提升泛化性能的方法）。正如上面分析的那樣，若是f(w)在全局最小點w*周圍是很是平坦的狀況的話，咱們有可能會找到一個很遠的點。但若是咱們有「強凸」的話，就能對狀況作一些控制，咱們就能夠獲得一個更好的近似解。至於有多好嘛，這裏面有一個bound，這個 bound 的好壞也要取決於strongly convex性質中的常數α的大小。看到這裏，不知道你們學聰明瞭沒有。若是要得到strongly convex怎麼作？最簡單的就是往裏面加入一項(α/2)*||w||²。

呃，講個strongly convex花了那麼多的篇幅。實際上，在梯度降低中，目標函數收斂速率的上界其實是和矩陣X^TX的 condition number有關，X^TX的 condition number 越小，上界就越小，也就是收斂速度會越快。

這一個優化說了那麼多的東西。仍是來個一句話總結吧：L2範數不但能夠防止過擬合，還可讓咱們的優化求解變得穩定和快速。

好了，這裏兌現上面的承諾，來直觀的聊聊L1和L2的差異，爲何一個讓絕對值最小，一個讓平方最小，會有那麼大的差異呢？我看到的有兩種幾何上直觀的解析：

1）降低速度：

咱們知道，L1和L2都是規則化的方式，咱們將權值參數以L1或者L2的方式放到代價函數裏面去。而後模型就會嘗試去最小化這些權值參數。而這個最小化就像一個下坡的過程，L1和L2的差異就在於這個「坡」不一樣，以下圖：L1就是按絕對值函數的「坡」降低的，而L2是按二次函數的「坡」降低。因此實際上在0附近，L1的降低速度比L2的降低速度要快。因此會很是快得降到0。不過我以爲這裏解釋的不太中肯，固然了也不知道是否是本身理解的問題。

L1在江湖上人稱Lasso，L2人稱Ridge。不過這兩個名字還挺讓人迷糊的，看上面的圖片，Lasso的圖看起來就像ridge，而ridge的圖看起來就像lasso。

2）模型空間的限制：

實際上，對於L1和L2規則化的代價函數來講，咱們能夠寫成如下形式：

也就是說，咱們將模型空間限制在w的一個L1-ball 中。爲了便於可視化，咱們考慮兩維的狀況，在(w1, w2)平面上能夠畫出目標函數的等高線，而約束條件則成爲平面上半徑爲C的一個 norm ball 。等高線與 norm ball 首次相交的地方就是最優解：

能夠看到，L1-ball 與L2-ball 的不一樣就在於L1在和每一個座標軸相交的地方都有「角」出現，而目標函數的測地線除非位置擺得很是好，大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性，例如圖中的相交點就有w1=0，而更高維的時候（想象一下三維的L1-ball 是什麼樣的？）除了角點之外，還有不少邊的輪廓也是既有很大的機率成爲第一次相交的地方，又會產生稀疏性。

相比之下，L2-ball 就沒有這樣的性質，由於沒有角，因此第一次相交的地方出如今具備稀疏性的位置的機率就變得很是小了。這就從直觀上來解釋了爲何L1-regularization 能產生稀疏性，而L2-regularization 不行的緣由了。

所以，一句話總結就是：L1會趨向於產生少許的特徵，而其餘的特徵都是0，而L2會選擇更多的特徵，這些特徵都會接近於0。Lasso在特徵選擇時候很是有用，而Ridge就只是一種規則化而已

再引用知乎網友魏晉的回答：

L1 Norm 和L2 Norm的區別（核心：L2對大數，對outlier更敏感！）：
考慮一個很簡單的最小Norm的優化問題：
MINIMIZE ∥x∥ WITH RESPECT TO Ax=b
假設Ax=b有無數可行解，那麼再假設a=(0.5,0.5)和b=(-1,0)都是可行解，那麼計算這個兩個向量的L1和L2 Norm，
||a||1=1, ||b||1=1; ||a||2=1/squre(2), ||b||2=1。很明顯，a和b L1 Norm相同，而可是b的L2 Norm卻大於a的L2 Norm。
L2 Norm對大數的懲罰比小數大！由於使用L2 Norm求出來的解是比較均勻的，而L1 Norm經常產生稀疏解。