機器爲何可以學習?

本系列是臺灣大學資訊工程系林軒田(Hsuan-Tien Lin)教授開設的《機器學習基石》課程的梳理。重在梳理,而非詳細的筆記,所以可能會略去一些細節。算法

該課程共16講,分爲4個部分:app

  1. 機器何時可以學習?(When Can Machines Learn?)
  2. 機器爲何可以學習?(Why Can Machines Learn?)
  3. 機器怎樣學習?(How Can Machines Learn?)
  4. 機器怎樣能夠學得更好?(How Can Machines Learn Better?)

本文是第2部分,對應原課程中的4-8講機器學習

本部分的主要內容:ide

  • 用案例引出學習可行性的疑問;
  • 詳細介紹VC維理論,它給出了機器學習的可靠性保證;
  • 介紹偏差的度量,以及對偏差權重不一樣的狀況的處理方法。

1 學習可行性的疑問

先來一個小學奧數題/公務員考試題:函數

其實這個題沒有標準答案,如下兩種解答都是對的:學習

  • 對稱爲\(+1\),非對稱爲\(-1\),所以答案是\(+1\)
  • 最左上角的格子白色爲\(+1\),黑色爲\(-1\),所以答案是\(-1\)

所以,選擇不一樣的規則,你會得到不一樣的答案。那麼,若是給你一些歷史數據,機器學習出某種規則,是否也會遇到這樣的狀況呢?優化

2 機器學習的可靠性保證

2.1 Hoeffding不等式

來看另外一個問題:有一個罐子,裏面裝有許許多多黃色和綠色的小球,該如何估計黃球的比例?spa

很簡單,抽樣就好了。抽出一部分樣本,計算獲得樣本中的黃球比例\(\nu\),用這個比例做爲罐子中的黃球比例\(\mu\)的估計便可。這樣的估計準不許呢?在統計學中,有Hoeffding不等式給出準確率的界限:設計

\[\mathbb{P}[\vert\nu-\mu\vert>\epsilon]\le 2\exp{(-2\epsilon^2 N)} \]

其中\(N\)爲抽樣的樣本個數。這個式子的意思是,\(\nu\)\(\mu\)相差較遠的機率會有一個上限,在大樣本下,這個上限會比較小,所以\(\nu=\mu\)能夠叫作機率近似正確(PAC,probably approximately correct)。3d

2.2 機器學習中的Hoeffding不等式

如今將這個過程類比到機器學習中。罐子中的小球對應於\(\mathcal{X}\)中的單個數據\(\mathbf{x}\),給定假設集中的一個假設\(h\),罐子中黃球的比例就對應於\(\mathcal{X}\)中使得\(h(\mathbf{x})=f(\mathbf{x})\)\(\mathbf{x}\)的比例。如今抽取出一部分樣本,這個樣本對應於現有的數據集\(\mathcal{D}\),咱們能夠很容易地知道對\(\mathcal{D}\)中每個數據\((\mathbf{x}_n,y_n)\)是否有\(h(\mathbf{x}_n)=y_n\),若相等,對應的小球爲黃色,反之爲綠色。咱們的目的,是要知道在整個\(\mathcal{X}\)中知足\(h(\mathbf{x})=f(\mathbf{x})\)\(\mathbf{x}\)的比例有多少。

\(N\)足夠大,且\(\mathbf{x}_n\)爲i.i.d.,對於某個固定的\(h\)來講,就能夠用已知的\(E_{\text{in}}(h)=\dfrac{1}{N}\sum\limits_{n=1}^{N} \mathbf{1}_{[h(\mathbf{x}_n)\ne y_n]}\)去推斷\(E_{\text{out}}(h)=\mathop{\mathcal{E}}\limits_{\mathbf{x}\sim P}\mathbf{1}_{[h(\mathbf{x})\ne f(\mathbf{x})]}\),從而判斷該\(h\)的表現如何,以下圖:

根據Hoeffding不等式,就是

\[\mathbb{P}[\vert E_{\text{in}}(h)-E_{\text{out}}(h)\vert>\epsilon]\le 2\exp{(-2\epsilon^2 N)} \]

若是\(E_{\text{in}}(h)\)\(E_{\text{out}}(h)\)足夠接近,而且\(E_{\text{in}}(h)\)足夠小,這就能保證\(E_{\text{out}}(h)\)足夠小,也就能判斷出對於抽樣過程\(P\),有\(h\approx f\)

可是,這只能用來判斷某個\(h\)是否足夠好。若是如今是用算法\(\mathcal{A}\)從假設集\(\mathcal{H}\)中選出一個\(h\),再套用上面的不等式,就會有問題。試想一下,假設有150我的,每人丟5次硬幣,就有超過99%的機率會出現有某個丟5次硬幣都是正面的人,這能說明他的丟硬幣技術比其餘人高嗎?若是選擇他做爲咱們的「\(g\)」,能保證他之後再去丟硬幣,獲得正面的機率也比其餘人更大嗎?

同理,若是是從\(\mathcal{H}\)中選出一個在樣本\(\mathcal{D}\)內偏差最小的\(g\),能保證它在\(\mathcal{D}\)外也是更好的嗎?想要獲得這樣的保證,還需對不等式作一些修正。

對每一個\(h\),均可能會有一些\(\mathcal{D}\),使得\(h\)在它上面的\(E_{\text{in}}(h)\)和真正的\(E_{\text{out}}(h)\)相差很大,把這種\(\mathcal{D}\)稱做「壞的」,Hoeffding不等式本質上是保證抽到壞的\(\mathcal{D}\)的機率有一個上限。記\(\vert\mathcal{H}\vert=M\),即共有\(M\)\(h\),咱們想要保證的是無論最後\(\mathcal{A}\)選出了哪一個,\(\mathcal{D}\)是「壞的」的機率都有較小的上限,所以,要計算的應該是對至少一個\(h\)來講\(\mathcal{D}\)是「壞的」的機率:

\[\begin{aligned} &\mathbb{P}_{\mathcal{D}}[(\textbf{BAD } \mathcal{D} \text{ for } h_1) \textbf{ or } (\textbf{BAD } \mathcal{D} \text{ for } h_2) \textbf{ or } \ldots \textbf{ or } (\textbf{BAD } \mathcal{D} \text{ for } h_M) ]\\ \le& \mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_1] + \mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_2] +\ldots+\mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_M]\\ \le& 2\exp{(-2\epsilon^2 N)}+2\exp{(-2\epsilon^2 N)}+\ldots+2\exp{(-2\epsilon^2 N)}\\ =& 2M\exp{(-2\epsilon^2 N)} \end{aligned} \]

這纔是\(\mathcal{A}\)選出來的\(h\)\(E_{\text{in}}(h)\)\(E_{\text{out}}(h)\)距離的上限。但在上面的過程當中,由於對事件的並集直接用了加的運算,這個上限被放得太大了,因爲不一樣的\(h\)對應的「壞的」\(\mathcal{D}\)極可能有很大重疊,所以真實的上限應該要小得多。如圖:

另外,\(M\)若是是有限的,根據上式,咱們仍是能夠經過增大\(N\)來保證\(E_{\text{in}}(h)\)\(E_{\text{out}}(h)\)足夠接近,但若是\(M\)是無限的呢?如在PLA中,係數的取值就能夠是無限多個,所以PLA的\(M\)是無窮大的。

2.3 VC維

\(M\)爲無窮大時,仍是有辦法的。儘管PLA的\(M\)是無窮大,但其實,咱們能夠對它的\(\mathcal{H}\)中的元素進行分類,只要樣本個數是有限的,它的類別就是有限的。好比在只有一個樣本的狀況中,二維PLA的\(\mathcal{H}\)中的元素(就是二維平面上的全部直線)能夠簡單分爲兩類,一類是把該樣本點分爲正的,一類是把該樣本點分爲負的:

而在兩個樣本的狀況中,\(\mathcal{H}\)中的元素能夠分爲4類:

三個樣本時可分爲8類:

但若3個點共線,那麼只有6類:

而當有4個樣本時,\(\mathcal{H}\)中的元素最多隻能分紅14類:

這說明,在PLA中,有\(N\)個樣本時,有效的\(M\)會小於等於\(2^N\)

接下來,引入幾個概念:

  • 二分(Dichotomies):對\(N\)個樣本,每一個樣本都有正負兩種可能,將全部樣本組成的每一種可能稱爲一個dichotomy,dichotomies的集合可記爲\(\mathcal{H}(\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N)\),顯然,集合中元素個數的上限是\(2^N\)
  • 成長函數(Growth Function):定義成長函數\(m_{\mathcal{H}}(N)=\max\limits_{\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N \in \mathcal{X}} \vert \mathcal{H}(\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N) \vert\),它的上限是\(2^N\),對於大多數模型(如二維感知機)的\(\mathcal{H}\)來講,\(m_{\mathcal{H}}(N)\)\(2^N\)小,僅爲多項式大小;
  • 打散(Shatter):若是\(\mathcal{H}\)能夠徹底實現\(N\)個樣本的\(2^N\)種dichotomies,則稱\(N\)個點可被\(\mathcal{H}\)打散;
  • 突破點(Break Point):若\(k\)個點不管如何也沒法被\(\mathcal{H}\)打散,則稱\(k\)\(\mathcal{H}\)的break point,根據定義,全部比\(k\)大的整數也都會成爲break points,對於二維感知機來講,從4開始就是它的break point。

接下來就是要找到,break point和\(m_{\mathcal{H}}(N)\)的關係。

咱們繼續引入界限函數(Bounding Function)的概念:\(B(N,k)\),它是當最小的break point爲\(k\)時的最大可能\(m_{\mathcal{H}}(N)\)。那麼,該如何計算它或者它的上限?

首先,當\(k=2\)時,表示任意兩個點都不能被打散,所以當\(N=2\)時有\(B(2,2)=3\),即最多能列舉出3種dichotomies(4種就是這兩個點被打散了),當\(N=3\)時有\(B(3,2)=4\)(窮舉法可知)。而當\(k=1\)時,因爲任何一個點都不能被打散,所以只能有一種dichotomy,即\(B(N,1)=1\)。另外,若是\(k>N\),因爲小於\(k\)個樣本點都能被打散,所以會有\(B(N,k)=2^N\)。而若是\(N=k\),那麼只需在\(2^N\)個被打散的點中拿掉一種dichotomy,就能知足這\(N\)個點不被打散的概念了,所以有\(B(N,k)=2^N-1\)

到目前爲止,在下面這張函數表中還有一部分沒有計算:

不妨先來看\(B(4,3)\)該如何計算。若是用窮舉法,能夠得出\(B(4,3)=11\)

觀察這11種dichotomies發現,它們能夠分紅兩組,其中一組的前3個點是有重複的,它們成爲不一樣的dichotomies僅僅是由於\(\mathbf{x}_4\)不一樣,而另外一組的前3個點沒有重複。

若是把前3個點有重複的8種dichotomies記爲\(2\alpha\)(只看前3個點就是\(\alpha\)種),後3種記爲\(\beta\),那麼就有\(2\alpha+\beta=11\)。而其實,\(B(4,3)\)無非就是比\(B(3,\cdot)\)多了一個點,假設如今把最後一個點去掉,那麼前3個點只可能有\(\alpha+\beta\)種dichotomies(由於第一組\(2\alpha\)種是前面3個點各重複兩次,所以須要剔除一半),因爲\(B(4,3)\)中任意3個點都不能被打散,所以前3個點也必須不能被打散,因此有\(\alpha+\beta\le B(3,3)\)

另外一方面,因爲\(2\alpha\)組中的4個點中,任意3個點都不能被打散,而第4個點是在每一組前3個點固定的狀況下取正/負,所以前3個點中的任意2個點都不能被打散(不然在加入第4個點後就會有3個點被打散)。所以,必需要保證\(\alpha\le B(3,2)\)

由此可知,\(B(4,3)=2\alpha+\beta \le B(3,3)+B(3,2)\),以此類推,有\(B(N,k)\le B(N-1,k)+B(N-1,k-1)\),最終結果如圖:

用數學概括法便可證實:\(B(N,k)\le \sum\limits_{i=0}^{k-1}\binom{N}{i}\),具體過程在此略過。事實上,能夠證實得\(B(N,k)=\sum\limits_{i=0}^{k-1}\binom{N}{i}\),具體的數學過程較複雜,課程中也略過了。該式說明,\(B(N,k)\)中成長最快的一項最多就是\(N^{k-1}\)的成長速度。

\(B(N,k)\)的定義,只要break point \(k\)存在,那麼\(m_{\mathcal{H}}(N)\)的上限就是\(B(N,k)\),也所以,\(m_{\mathcal{H}}(N)\)中成長最快的一項最多就是\(N^{k-1}\)的成長速度。

在有了\(m_{\mathcal{H}}(N)\)後,想用它取代\(M\),還須要作一些處理,具體在此略過。最後能夠獲得的是Vapnik-Chervonenkis(VC) bound:

\[\mathbb{P}[\exists h \in \mathcal{H} \text{ s.t. }\vert E_{\text{in}}(h)-E_{\text{out}}(h)\vert>\epsilon]\le 4 m_{\mathcal{H}}(2N)\exp{(-\dfrac{1}{8}\epsilon^2 N)} \]

定義VC維(VC dimension)\(d_{\text{vc}}(\mathcal{H})\)爲知足\(m_{\mathcal{H}}(N)=2^N\)的最大的\(N\),也即\(\mathcal{H}\)能打散的最大的點的個數,或最小的break point減1。當\(N\ge2\)\(d_{\text{vc}}\ge 2\)時,有\(m_{\mathcal{H}}(N)\le N^{d_{\text{vc}}}\)

對於\(d\)維感知機模型來講,有\(d_{\text{vc}}=d+1\)(證實略)。只要\(d_{\text{vc}}\)是有限的,就能夠完成泛化。\(d_{\text{vc}}(\mathcal{H})\)就至關因而\(\mathcal{H}\)的powerfulness。

2.4 VC Bound與模型複雜度懲罰

對於\(g=\mathcal{A}(\mathcal{D})\in \mathcal{H}\),若是\(\mathcal{D}\)在統計上足夠大,有

\[\mathbb{P}[\vert E_{\text{in}}(g)-E_{\text{out}}(g)\vert>\epsilon]\le 4 (2N)^{d_{\text{vc}}} \exp{(-\dfrac{1}{8}\epsilon^2 N)} \]

不等式左側表示「壞的」的概率。若將不等式右邊記爲\(\delta\),可將\(\epsilon\)反表示爲\(\epsilon=\sqrt{\dfrac{8}{N}\ln{\dfrac{4(2N)^{d_{\text{vc}}}}{\delta}}}=\Omega(N,\mathcal{H},\delta)\)\(\Omega(N,\mathcal{H},\delta)\)就表明了對模型複雜度的懲罰。

能夠看出,至少有\(1-\delta\)的機率,能知足

\[E_{\text{out}}(g)\le E_{\text{in}}(g)+\Omega(N,\mathcal{H},\delta) \]

\(d_{\text{vc}}\)和error的關係以下圖:

要找到最優的\(d_{\text{vc}}\),才能使error最小。

VC Bound只是一個很是寬鬆的理論界限。好比設定\(\epsilon=0.1\)\(\delta=0.1\)\(d_{\text{vc}}=3\),那麼根據前式,可獲得\(N\approx 10,000 d_{\text{vc}}\),但在實踐中,每每只須要\(N\approx 10 d_{\text{vc}}\)的數據量就夠了。

2.5 有噪聲時的VC Bound

若是標籤被打錯了,或是同一我的被打了不一樣標籤,又或是\(\mathbf{x}\)的信息不許確,都會引入噪聲。在有噪聲時,VC Bound依舊有效嗎?

回到以前小球的例子,以前的小球,每一個小球的顏色都是肯定的,這種狀況叫作是「deterministic」的,在有噪聲的狀況中,能夠認爲每一個小球的顏色服從某種機率,即\(y\sim P(y|\mathbf{x})\),這叫作是「probabilistic」的。能夠證實若是\((\mathbf{x},y)\mathop{\sim}^{i.i.d.}P(\mathbf{x},y)\),那麼VC理論依舊是有效的。

有噪聲時,學習的目標是在常見的樣本\(P(\mathbf{x})\)上,學習\(P(y|\mathbf{x})\)。新的學習流程以下:

VC理論依舊有效,pocket算法就是個很好的例子。

3 偏差度量

在這裏介紹一種逐點的偏差度量(pointwise error measure),能夠表達成\(\text{err}(g(\mathbf{x}), f(\mathbf{x}))\)\(g(\mathbf{x})\)可記爲\(\tilde{y}\)\(f(\mathbf{x})\)可記爲y。

有兩種比較重要的pointwise error measure:

  • \(\text{err}(\tilde{y}, y)=\mathbb{1}_{[\tilde{y} \ne y]}\),這通常用在分類問題中;
  • \(\text{err}(\tilde{y}, y)=(\tilde{y} - y)^2\),這通常用在迴歸問題中。

在有了偏差度量後,學習流程以下:

在分類問題中,錯誤可分爲兩類,以下圖所示:

根據這兩類錯誤的重要性不一樣,能夠對它們賦予不一樣的權重。所以,不一樣的應用能夠有不一樣的\(\text{err}\)。在算法中考慮偏差度量時(記用在算法中的錯誤度量爲\(\widehat{\text{err}}\)),最好的狀況固然是直接令\(\widehat{\text{err}}=\text{err}\),但這可能會致使很難計算,好比會帶來NP-hard問題等,通常來講,最好要設計一個對於\(\mathcal{A}\)來講能比較容易進行最優化的\(\widehat{\text{err}}\),最好要有閉式解(closed-form solution)或有凸的目標函數。

\(\mathcal{A}\)中加入偏差度量的設計後,學習流程以下:

對於兩類錯誤權重不一樣的狀況,能夠用「virtual copying」的策略去學習。以pocket算法爲例,假設false reject錯誤的權重爲1,false accept錯誤的權重爲1000,在計算時沒必要真的對每一個樣本點賦予權重,能夠「虛擬地」將\(y=-1\)的點複製1000份。在實踐中,也沒必要真的複製,能夠在隨機選擇樣本點時,讓算法隨機選出\(y=-1\)的點的機率增大1000倍便可。

相關文章
相關標籤/搜索