理論機器學習

簡介

可學習理論針對於監督學習,從問題空間$X\times Y$中採樣,輸出一個預測函數$h:X\to Y$,來斷定X與Y之間的對應關係。算法

主要難點在於:函數

  1. 採樣空間S須要多大,太大則不現實,過小則不能達到足夠的精度;若是問題有着強烈的結構,那麼小的樣本空間是可能的。
  2. 預測函數h的精確度,過低不能知足要求,過高則有可能不能有效覆蓋整個問題空間,也就是欠擬合和過擬合。另外不一樣領域中,預測函數的結構有很大差異,也就是會有不一樣的預測/假設函數類。
  3. 實際應用中,精確度函數,或者說損失函數L,也是影響學習過程的重要因素。例如凸函數能夠下降時間複雜度,還能夠抑制過擬合問題。

所以學習問題定義爲一個三元組$(S,H,L)$。未知數據分佈$(x,y)\sim D$的狀況下,可學習理論給出了獲得預測函數集合中最優函數,須要的樣本複雜度。學習

PAC可學習

PAC可學習

  • 已知:領域集$X\sim D$,標籤集$Y$,標記函數$f:X\to Y$
  • 學習器輸入: 訓練集$S:X\times Y$
  • 學習器輸出: $h:X\to Y$
  • 錯誤率: $L_{D,f}(h)\overset{def}{=}P_{x\sim D}[h(x)\neq f(x)]\overset{def}{=}D(\{x|h(x)\neq f(x)\})$
  • 訓練偏差: $L_S(h)\overset{def}{=}\frac{1}{m}|\{i\in [m]|h(x_i)\neq y_i\}|$
  • 假設類H:提早選擇的預測器集合
  • 經驗風險最小化 ERM: $h_*=\arg\min_{h\in H}L_S(h)$
  • iid 假設: 訓練集中的樣本根據分佈 D,獨立同分布。
  • 樣本複雜度:$m_H:(0,1)\times(0,1)\to N$
  • 可實現假設:$\exists h\in H(L_{D,f}(h)=0)$

定義:$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D[\exists h\in H(L_{D,f}(h)=0)\wedge m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D,f}(A(S)\leqslant\epsilon)\geqslant 1-\delta]$it

任一有限假設類H爲PAC可學習,採樣複雜度知足:$m_H(\epsilon,\delta)\leqslant\left \lceil \frac{\log(|H|)}{\epsilon\delta} \right \rceil$變量

$\gamma-$弱可學習:相似與 PAC可學習,但不要求$\epsilon=1/2-\gamma$任意小,比隨機猜想好一個$\gamma$便可,以此換取高效算法。lambda

不可知PAC可學習

  • 已知:領域標籤集$X\times Y\sim D$
  • 學習器輸入: 訓練集$S:X\times Y$
  • 學習器輸出: $h:X\to Y$
  • 錯誤率: $L_{D}(h)\overset{def}{=}P_{(x,y)\sim D}[h(x)\neq y]\overset{def}{=}D(\{(x,y)|h(x)\neq y\})$
  • 訓練偏差: $L_S(h)\overset{def}{=}\frac{1}{m}|\{i\in [m]|h(x_i)\neq y_i\}|$
  • 假設類H:提早選擇的預測器集合
  • 經驗風險最小化 ERM: $h_*=\arg\min_{h\in H}L_S(h)$
  • iid 假設: 訓練集中的樣本根據分佈 D,獨立同分布。
  • 樣本複雜度:$m_H:(0,1)\times(0,1)\to N$

定義:$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D,m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D}(A(S))\leqslant\min_{h'\in H}L_D(h')+\epsilon)\geqslant 1-\delta$gc

定理:[沒有免費的午飯]
    對實例空間 X上0-1損失的二分任務,令 A 表示任意的學習算法。樣本大小 m 表示小於|X|/2的任意數,則在$X\times\{0,1\}$上存在一個分佈 D,使得:存在一個函數$f:X\to\{0,1\}$知足$L_D(f)=0$;在樣本集$S\sim D^m$上,以致少$\frac{1}{7}$的機率知足 $L_D(A(S))\geqslant \frac{1}{8}$。每一個學習器,都存在一個任務使其失敗。im

VC維:H 能夠打散的最大集合的大小。經驗

  • 打散:若是限制 H 在 C 上是從 C 到$\{0,1\}$的全部函數的集合,則稱 H 打散了有限集 H,此時$|H_C|=2^{|C|}$。

一致收斂(H):$$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D,m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D}(A(S))\leqslant\min_{h'\in H}L_D(h')+\epsilon)\geqslant 1-\delta$$nw

定理:二分類問題的等價性:一致收斂$\iff$不可知PAC可學習$\iff$VCdim有限

不一致可學習

樣本複雜度:$m_H:(0,1)\times(0,1)\times H\to N$

定義:$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D\forall h,m\geqslant m_H(\epsilon,\delta,h),S\sim D^m\Rightarrow P(L_D(A(S))\leqslant L_D(h)+\epsilon)\geqslant 1-\delta$

定理:二分類問題的假設類 H是不一致可學習$\iff$H 爲不可知PAC可學習的可數並
定理:[結構風險最小化SRM]設$$S\sim D^m,\sum_nw(n)\leqslant 1, H=\bigcup_nH_n,\epsilon_n(m,\delta)=min\{\epsilon\in(0,1):m_{H_n}(\epsilon,\delta)\leqslant m\}$$ $$[\forall\delta\forall n\forall h\in H_n,P(|L_D(h)-L_S(h)|\leqslant\epsilon_n(m,w(n)\delta))\geqslant 1-\delta]\Rightarrow [\forall\delta\forall D\forall h\in H, L_D(h)\leqslant L_S(h)+\min_{n:h\in H}\epsilon_n(m,w(n)\delta) ]$$

一致收斂$(H,2^D)$:$$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D\forall h,m\geqslant m_H(\epsilon,\delta,h,D),S\sim D^m\Rightarrow P(L_D(A(S))\leqslant L_D(h)+\epsilon)\geqslant 1-\delta$$

凸學習問題

凸學習問題:假設類$H$爲凸集,損失函數$L$對樣本$s$爲凸函數,則學習問題$(H,L,S)$爲凸的。

可學習性

$\rho-$利普希茨性:$f:R^d\to R^k,\exists \rho\forall w_1\forall w_2, \left \| f(w_1)-f(w_2) \right \|\leqslant \rho \left \| w_1-w_2 \right \| $

光滑性:$\bigtriangledown f$具備$\rho-$利普希茨性

假設類有界:$\exists B\forall h\in H \left \| h \right \|\leqslant B$

學習問題$(H,L,S)$爲凸利普希茨有界:$(H,L,S)$爲凸$\wedge H$有界$\wedge L$爲利普希茨

學習問題$(H,L,S)$爲凸光滑有界:$(H,L,S)$爲凸$\wedge H$有界$\wedge L$爲非負、光滑

正則性與穩定性

正則損失最小化$RLM:\arg\min_h(L_D(h)+R(h)),R:R^d\to R$

Tikhonov 正則化:$R(h)=\lambda \left \| h \right \|^2$

  • 嶺迴歸爲不可知 PAC 可學習器

換一穩定:$S^{(i)})$替換了S 的第 i 個樣本,$\epsilon:N\to R$是一個單調遞減函數。一個學習算法 A 是在比率$\epsilon(m)$下的換一穩定,若是$$E_{(S,z')\sim D^{m+1},i\sim U(m)}[L(A(S^{(i)}),z_i)-L(A(S),z_i)]\leqslant \epsilon(m)$$

$\lambda-$強凸函數:$f(au+(1-a)v)\leqslant af(u)+(1-a)f(v)-\frac{\lambda}{2}a(1-a)\left \| u-v\right \|^2$

  • $f(h)=\lambda \left \| h \right \|^2$是$2\lambda-$強凸函數
  • f 是$\lambda-$強凸函數,g是凸函數,f+g 是$\lambda-$強凸函數
  • f 是$\lambda-$強凸函數,若是 u 是 f 的一個極小值,那麼$f(h)-f(u)\geqslant \frac{\lambda}{2}\left \| h-u\right \|^2$

定理:學習問題$(H,L,S)$爲凸利普希茨,那麼Tikhonov 正則化的 RLM 是比率爲$\frac{2\rho^2}{\lambda m}$的換一穩定。

定理:學習問題$(H,L,S)$爲凸光滑,$\exists C\forall s(L(0,s)\leqslant C)$,那麼Tikhonov 正則化的 RLM 是比率爲$\frac{48\rho C}{\lambda m}$的換一穩定。

隨機梯度降低SGD

定理:對於梯度降低法GD,$w^{(1)}=0, w^{(t+1)}=w^{(t)}-\eta \nu_t$,有$\sum_t <w^{(t)}-w^*,\nu_t>\leqslant \frac{\left \| w^* \right \|^2}{2\eta}+\frac{\eta}{2}\sum_t\left \| \nu_t \right \|^2$

次梯度:f是凸函數$\iff \forall w\exists v\forall u,f(u)-f(w)\geqslant <u-w,v>$,v稱爲f在w處的次梯度,其集合記做$\partial f(w)$。

定理:A爲開凸集,f爲A上凸函數,f爲凸利普希茨$\iff \forall w\in A\forall v\in \partial f(w),\left \| v \right \|\leqslant\rho$

隨機梯度降低法SGD,$w^{(1)}=0, w^{(t+1)}=w^{(t)}-\eta \nu_t, E[\nu_t|w^{(t)}]\in\partial f(w)$,f爲凸函數,h有界B,$\nu$有界$\rho$,則$E[f(\bar{w})]-f(w^*)\leqslant\frac{B\rho}{\sqrt T}$

  • 對於ERM,若是損失函數$L_S$的梯度是真實損失$L_D$梯度的無偏估計,則經過SGD可依機率收斂。
  • 對於凸光滑學習問題,SGD收斂。

不等式

  • 馬爾可夫不等式,$$For\,X\geqslant 0, \forall a>0,P[Z\geqslant a]\leqslant \frac{E[Z]}{a}$$
  • 切比雪夫不等式$$\forall a>0,P[|Z-E[Z]|\geqslant a]=P[(Z-E[Z])^2\geqslant a^2]\leqslant \frac{Var[Z]}{a^2}$$
  • Hoeffding不等式:設 $X\in[a,b]$是一個隨機變量,$E[X]=0$ $$\forall \lambda>0, E[exp(\lambda X)]\leqslant \exp(\frac{\lambda^2(b-a)^2}{8})$$ $$ P[|\frac{1}{m}\sum_iZ_i-\mu|>\epsilon]\leqslant 2\exp(-\frac{2m\epsilon^2}{(b-a)^2})$$
  • Bennet不等式:假設$Z_i$爲獨立隨機變量,均值爲0,$P(Z_i\leqslant 1)=1$ $$\sigma^2\geqslant \frac{1}{m}\sum_i E[Z_i^2]$$
  • Bernsein不等式:假設$Z_i$爲獨立隨機變量,均值爲0$$\forall i,P(Z_i\leqslant M)=1\Rightarrow \forall t>0, P[\sum Z_i>t]\leqslant \exp(-\frac{t^2}{\sum E Z_j^2+Mt/3})$$
  • Slud不等式$$X\sim (m,p),p=\frac{1-\epsilon}{2}\Rightarrow P[X\leqslant \frac{m}{2}]\leqslant \frac{1}{2}(1-\sqrt{1-\exp(-\frac{m\epsilon^2}{1-\epsilon^2})})$$
  • $\chi^2$隨機變量的集中度$$P[Z\leqslant(1-\epsilon)k]\leqslant \exp(-\frac{\epsilon^2k}{6}) $$

參考文獻

  • Shai Shalev-Shwartz, etal, Understanding Machine Learning: From Theory to Algorithms, Cambridge University Press, 2014
相關文章
相關標籤/搜索