1、嶺迴歸和 LASSO 迴歸的推導過程
1)嶺迴歸和LASSO迴歸都是解決模型訓練過程當中的過擬合問題

- 具體操做:在原始的損失函數後添加正則項,來儘可能的減少模型學習到的 θ 的大小,使得模型的泛化能力更強;
2)比較 Ridge 和 LASSO
-
Ridge、LASSO:衡量模型正則化;機器學習
-
MSE、MAE:衡量回歸結果的好壞;函數
-
歐拉距離、曼哈頓距離:衡量兩點之間距離的大小;學習
- Ridge、LASSO:在損失函數後添加的正則項不一樣;
- MSE、MAE:兩種偏差的表現形式與對應的 Ridge 和 LASSO 的兩種正則項的形式很像;
- 歐拉距離、曼哈頓距離:歐拉距離和曼哈頓距離的總體表現形式,與 Ridge、LASSO 兩種正則項的形式也很像;
- 在機器學習領域,對於不一樣的應用會有不一樣的名詞來表達不一樣的衡量標準,但其背後本質的數學思想很是相近,表達出的數學的含義也近乎一致,只不過應用在了不一樣的場景中而產生了不一樣的效果,進而生成了不一樣的名詞;
3)明科夫斯基距離
- 明科夫斯基距離:

- 將明科夫斯基距離泛化:Lp 範數

- p = 1:稱爲 L1 範數,至關於從 (0, 0) 點到 X 向量的曼哈頓距離;
- p = 2:稱爲 L2 範數,至關於從 (0, 0) 點到 X 向量的歐拉距離;
4)L1 正則、L2 正則
- Ridge 迴歸中添加了 L2 正則項,LASSO 迴歸中添加了 L1 正則項;
- L2 正則項和 L2 範數的區別在於,L2 正則項沒有開平方,但有時候也直接稱 L2 正則項爲 L2 範數;(同理 L1 範數與 L1 正則項的關係)
- 緣由: L2 正則項是用於放在損失函數中進行最優化,若是將 L2 正則項加上開根號,不會影響損失函數優化的最終結果,可是不帶根號會顯得整個式子更加簡單,因此對於 L2 正則項的式子中不帶根號;
5)L0 正則
- 目的:使 θ 的個數儘可能少,進而限制 θ,使得擬合曲線上下抖動幅度不要太大,模型的泛化能力也會得以提升;

- 實際中不多使用 L0 正則來進行模型正則化的過程,而是用 L1 正則代替;
- 緣由: L0 正則的優化是一個 NP 難的問題;它不能使用諸如梯度降低法,甚至是直接求出一個數學公式這樣的方式來直接找到最優解; L0 正則項本質是一個離散最優化的問題,可能須要窮舉全部的讓各類 θ 的組合爲 0 的可能狀況,而後依次來計算 J(θ) ,進而來以爲讓哪些 θ 爲 0 哪些 θ 不爲 0,因此說 L0 正則的優化是一個 NP 難的問題;
2、彈性網(Elastic Net)
1)公式
- 操做:在損失函數後添加 L1 正則項和 L2 正則項;
- 特色:同時結合了 嶺迴歸和 LASSO 迴歸的優點;
- r:新的超參數,表示添加的兩個正則項的比例(分別爲 r、1-r );
2)現實中,在進行正則化的過程當中,一般要先使用 嶺迴歸優化
- 緣由:若是特徵很是多的話,嶺迴歸不能將某些 θ 設置爲 0,若 θ 的量太大的話到致使總體計算量也很是的大;
3)當特徵很是多時,應先考慮使用 彈性網spa
- 緣由:彈性網結合了嶺迴歸的計算的優勢,同時又結合了 LASSO 迴歸特徵選擇的優點;
3、總結與開拓
1)總結
- 訓練的機器學習模型不是爲了在訓練數據集上有好的測試結果,而是但願在將來面對未知的數據集上有很是好的結果;
- 模型在面對未知數據集表現的能力,爲該模型的泛化能力;(模型泛化是機器學習領域很是很是重要的話題)
- 看學習曲線;
- 對模型進行交叉驗證;
- 對模型進行正則化;
2)開拓
- LASSO 迴歸的缺點:急於將某些 θ 化爲 0,過程當中可能會產生一些錯誤,使得最終的模型的誤差比較大;
- 問題:LASSO 迴歸在模型優化的過程當中是有選擇的將某些 θ 化爲 0 嗎?或者說有沒有什麼條件使得儘可能避免讓相關性比較強的特徵的係數化爲 0 ?仍是說這一行爲只是單純的數學運算,就爲目標函數儘可能達到目標狀態?
- 「可能產生的錯誤」:將一些相關性比較強的特徵的參數 θ 也化爲 0,致使該特徵丟失;
- 彈性網結合了嶺迴歸和 LASSO 迴歸兩者的優點,小批量梯度降低法結合了批量梯度降低法和隨機批量梯度降低法兩者的優點,相似的方法在機器學習領域常常被運用,用來創造出新的方法。
- 參加考試前要作不少練習題,練習題就至關於訓練數據,目的不是爲了在作練習題的過程當中達到滿分,而是經過作練習題讓咱們在面對新的考試題時獲得更高的分數,考試中面對的新的題目至關於模型在將來生成環境中見到的新的數據。