範數及其應用

時間 2019-11-06

標籤及其應用简体版

原文原文鏈接

範數

範數的通常化定義：設\(p\geq 1\)的實數，p-norm定義爲：機器學習

\[ || x ||_{p}\; :=\; (\sum_{i=1}^{n}{\left| x_{i} \right|^{p}})^{\frac{1}{p}} \]函數

L0範數

\[\left| \left| x \right| \right|_{0}\; :=\; ^{0}\sqrt{\sum_{i=0}^{n}{x_{i}^{0}}}\]學習

嚴格來說，L0不屬於範數，上面的公式讓人難以理解。在實際應用中，人們每每採用如下定義：優化

\[\left| \left| x \right| \right|_{0}\; \; =\; \#\left( i \right)\; with\; x_{i}\; \neq \; 0\]編碼

其表示向量中全部非零元素的個數。spa

L1範數

\[\left| \left| x \right| \right|_{1}\; :=\; \sum_{i=1}^{n}{\left| x_{i} \right|} \].net

也稱爲曼哈頓距離。orm

L0範數是指向量中非0的元素的個數。若是咱們用L0範數來規則化一個參數矩陣W的話，就是但願W的大部分元素都是0。換句話說，讓參數W是稀疏的。看到了「稀疏」二字，你們都應該從當下風風火火的「壓縮感知」和「稀疏編碼」中醒悟過來，原來用的漫山遍野的「稀疏」就是經過這玩意來實現的。blog

但你又開始懷疑了，是這樣嗎？看到的papers世界中，稀疏不是都經過L1範數來實現嗎？腦海裏是否是處處都是||W||1影子呀！get

L1範數和L0範數能夠實現稀疏，L1因具備比L0更好的優化求解特性而被普遍應用。

L2範數

範數中最多見，也最著名的非L2範數莫屬。
\[\left| \left| x \right| \right|_{2}\; :=\; \sqrt{\sum_{i=1}^{n}{x_{i}^{2}}}\]

L2範數的優勢

從學習理論的角度來講，L2範數能夠防止過擬合，提高模型的泛化能力。
從優化或者數值計算的角度來講，L2範數有助於處理condition number很差的狀況下矩陣求逆很困難的問題。

L1和L2的差異，爲何一個讓絕對值最小，一個讓平方最小，會有那麼大的差異呢？

降低速度：
L1就是按絕對值函數的「坡」降低的，而L2是按二次函數的「坡」降低。
模型空間的限制：
對於L1和L2規則化的代價函數來講，咱們寫成一下形式：

\[ Lasso:\; \min_w{||y-Xw||^2},\; s.t.\ ||w||_1\leq{C}\\ Ridge:\; \min_w{||y-Xw||^2},\; s.t.\ ||w||_2\leq{C}\\ \]

考慮二維的狀況，等高線與norm ball相交的地方就是最優解。L1-ball的最優勢大都出如今"角點"處，這便大機率產生了稀疏性；L2-ball卻不能夠，它只是一種規則化手段。

無限範數

infinity norm:
\[\left| \left| x \right| \right|_{\infty }\; :=\; ^{\infty }\sqrt{\sum_{i=1}^{n}{x_{i}^{\infty }}}\]

即：
\[\left| \left| x \right| \right|_{\infty }\; =\; ^{\infty }\sqrt{\sum_{i=1}^{n}{x_{i}^{\infty }}}\; =\; ^{\infty }\sqrt{x_{j}^{\infty }}\; \; =\; \max \left( \left| x_{j} \right|\right) \]
表示的是X向量中最大元素的長度。

機器學習中的應用

正則化

對模型複雜度進行懲罰，若是懲罰項選擇L1，則是咱們所說的Lasso迴歸，而L2則是Ridge迴歸。

貝葉斯

正則化項從貝葉斯學習理論的角度來看，其至關於一種先驗函數分佈。

即當你訓練一個模型時，僅僅依靠當前的訓練集數據是不夠的，爲了實現更好的預測（泛化）效果，咱們還應該加上先驗項。

而L1則至關於設置一個Laplacean先驗，而L2則相似於 Gaussian先驗。

L1先驗對大值和小值的tolerate很好，而L2先驗則傾向於均勻化大值和小值。

貝葉斯迴歸和圖模型

迴歸模型\(y=Xw+\epsilon\)，能夠看作是：
\[p(y|X; w,\lambda)=N(Xw,\lambda) ,\; p(\epsilon)=N(0,\lambda)\]

貝葉斯分佈：
\[p(\epsilon)=\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{\epsilon^2}{2\delta^2})\]
因此：
\[p(y|x;w)=\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{(y-w^Tx)^2}{2\delta^2})\]

對極大似然MLE取對數:
\[ \begin{split} l(w)&=log(\prod_{i=1}^{m}{\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{(y-w^Tx)^2}{2\delta^2})}) \\ &=mlog(\frac{1}{\sqrt{2\pi}\delta}) - \frac{1}{2\delta^2}{\sum_{i=1}^{m}{(y-w^Tx)^2}} \end{split}\]

即：
\[w_{MLE}=arg\; min\sum_{i=1}^{m}{(y-w^Tx)^2}\]
這就導出了平方損失函數。這是在咱們對參數 w 沒有加入任何先驗分佈的狀況下。

在數據維度很高的狀況下，咱們的模型參數不少，模型複雜度高，容易發生過擬合。這個時候，咱們能夠對參數 w 引入先驗分佈，下降模型複雜度。

Ridge Regression

假設參數w服從協方差爲\(\alpha\)的標準高斯分佈。
\[ \begin{split} L(w)&=p(y|x;w*p(w))\\ &=\prod_{i=1}^{m}{\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{(y-w^Tx)^2}{2\delta^2})})* \prod_{j=1}{n}{\frac{1}{\sqrt{2\pi}\alpha}*\exp(-\frac{(w)^2}{2\alpha^2})}, w是n個參數\\ &=\prod_{i=1}^{m}{\frac{1}{\sqrt{2\pi}\delta}*\exp(-\frac{(y-w^Tx)^2}{2\delta^2})})* \frac{1}{(2\pi)^{n/2}}\frac{1}{|\Sigma|^{1/2}}exp[-\frac{1}{2}{w^T\Sigma^{-1}w}] \end{split} \]

取對數，得：
\[ \begin{split} l(w)&=log(L(w)) \\ &= m\log{\frac{1}{\sqrt{2\pi}}} + nlog\frac{1}{\sqrt{2\pi}} -\frac{1}{2}\log{|\Sigma|}- \frac{1}{2\delta^2}{\sum_{i=1}^{m}{(y-w^Tx)^2}}-\frac{1}{2}\frac{1}{\alpha}w^Tw \end{split} \]

和w有關的項：
\[J(w)=\frac{1}{m}{||y-w^Tx||_2} + \lambda||w||_2\]

ridge regression 並不具備產生稀疏解的能力，也就是說參數並不會真出現不少零，只是會讓權值在0附近分佈很密集。

假設咱們的預測結果與兩個特徵相關，L2正則傾向於綜合二者的影響，給影響大的特徵賦予高的權重；而L1正則傾向於選擇影響較大的參數，而捨棄掉影響較小的那個。實際應用中L2正則表現每每會優於 L1正則，但 L1正則會大大下降咱們的計算量。

Lasso

若是對w引入Laplace分佈呢？Laplace分佈：

\[f(x|u,b)=\frac{1}{2b}\exp({-\frac{|x-u|}{b}})\]

重複以前的推導過程咱們很容易獲得：

\[w_{MAP} = arg \min(\frac{1}{2\delta^2}{\sum_{i=1}^{m}(y-w^Tx)^2} + \frac{1}{2b^2}{||w||_1})\]

LASSO 仍然是一個 convex optimization 問題，它的優良性質是能產生稀疏性，致使 w 中許多項變成零。等價於L1正則化。

Elastic Net

既然 L1和 L2正則各自都有本身的優點，那咱們能不能將他們 combine 起來？因而就有了混合先驗機率，公式比較複雜，參數約束以下：