機器爲何可以學習？

時間 2020-08-21

標籤機器爲何可以學習简体版

原文原文鏈接

本系列是臺灣大學資訊工程系林軒田（Hsuan-Tien Lin）教授開設的《機器學習基石》課程的梳理。重在梳理，而非詳細的筆記，所以可能會略去一些細節。算法

該課程共16講，分爲4個部分：app

機器何時可以學習？（When Can Machines Learn？）
機器爲何可以學習？（Why Can Machines Learn？）
機器怎樣學習？（How Can Machines Learn？）
機器怎樣能夠學得更好？（How Can Machines Learn Better？）

本文是第2部分，對應原課程中的4-8講。機器學習

本部分的主要內容：ide

用案例引出學習可行性的疑問；
詳細介紹VC維理論，它給出了機器學習的可靠性保證；
介紹偏差的度量，以及對偏差權重不一樣的狀況的處理方法。

1 學習可行性的疑問

先來一個小學奧數題/公務員考試題：函數

其實這個題沒有標準答案，如下兩種解答都是對的：學習

對稱爲\(+1\)，非對稱爲\(-1\)，所以答案是\(+1\)；
最左上角的格子白色爲\(+1\)，黑色爲\(-1\)，所以答案是\(-1\)；

所以，選擇不一樣的規則，你會得到不一樣的答案。那麼，若是給你一些歷史數據，機器學習出某種規則，是否也會遇到這樣的狀況呢？優化

2 機器學習的可靠性保證

2.1 Hoeffding不等式

來看另外一個問題：有一個罐子，裏面裝有許許多多黃色和綠色的小球，該如何估計黃球的比例？spa

很簡單，抽樣就好了。抽出一部分樣本，計算獲得樣本中的黃球比例\(\nu\)，用這個比例做爲罐子中的黃球比例\(\mu\)的估計便可。這樣的估計準不許呢？在統計學中，有Hoeffding不等式給出準確率的界限：設計

\[\mathbb{P}[\vert\nu-\mu\vert>\epsilon]\le 2\exp{(-2\epsilon^2 N)} \]

其中\(N\)爲抽樣的樣本個數。這個式子的意思是，\(\nu\)和\(\mu\)相差較遠的機率會有一個上限，在大樣本下，這個上限會比較小，所以\(\nu=\mu\)能夠叫作機率近似正確（PAC，probably approximately correct）。3d

2.2 機器學習中的Hoeffding不等式

如今將這個過程類比到機器學習中。罐子中的小球對應於\(\mathcal{X}\)中的單個數據\(\mathbf{x}\)，給定假設集中的一個假設\(h\)，罐子中黃球的比例就對應於\(\mathcal{X}\)中使得\(h(\mathbf{x})=f(\mathbf{x})\)的\(\mathbf{x}\)的比例。如今抽取出一部分樣本，這個樣本對應於現有的數據集\(\mathcal{D}\)，咱們能夠很容易地知道對\(\mathcal{D}\)中每個數據\((\mathbf{x}_n,y_n)\)是否有\(h(\mathbf{x}_n)=y_n\)，若相等，對應的小球爲黃色，反之爲綠色。咱們的目的，是要知道在整個\(\mathcal{X}\)中知足\(h(\mathbf{x})=f(\mathbf{x})\)的\(\mathbf{x}\)的比例有多少。

若\(N\)足夠大，且\(\mathbf{x}_n\)爲i.i.d.，對於某個固定的\(h\)來講，就能夠用已知的\(E_{\text{in}}(h)=\dfrac{1}{N}\sum\limits_{n=1}^{N} \mathbf{1}_{[h(\mathbf{x}_n)\ne y_n]}\)去推斷\(E_{\text{out}}(h)=\mathop{\mathcal{E}}\limits_{\mathbf{x}\sim P}\mathbf{1}_{[h(\mathbf{x})\ne f(\mathbf{x})]}\)，從而判斷該\(h\)的表現如何，以下圖：

根據Hoeffding不等式，就是

\[\mathbb{P}[\vert E_{\text{in}}(h)-E_{\text{out}}(h)\vert>\epsilon]\le 2\exp{(-2\epsilon^2 N)} \]

若是\(E_{\text{in}}(h)\)和\(E_{\text{out}}(h)\)足夠接近，而且\(E_{\text{in}}(h)\)足夠小，這就能保證\(E_{\text{out}}(h)\)足夠小，也就能判斷出對於抽樣過程\(P\)，有\(h\approx f\)。

可是，這只能用來判斷某個\(h\)是否足夠好。若是如今是用算法\(\mathcal{A}\)從假設集\(\mathcal{H}\)中選出一個\(h\)，再套用上面的不等式，就會有問題。試想一下，假設有150我的，每人丟5次硬幣，就有超過99%的機率會出現有某個丟5次硬幣都是正面的人，這能說明他的丟硬幣技術比其餘人高嗎？若是選擇他做爲咱們的「\(g\)」，能保證他之後再去丟硬幣，獲得正面的機率也比其餘人更大嗎？

同理，若是是從\(\mathcal{H}\)中選出一個在樣本\(\mathcal{D}\)內偏差最小的\(g\)，能保證它在\(\mathcal{D}\)外也是更好的嗎？想要獲得這樣的保證，還需對不等式作一些修正。

對每一個\(h\)，均可能會有一些\(\mathcal{D}\)，使得\(h\)在它上面的\(E_{\text{in}}(h)\)和真正的\(E_{\text{out}}(h)\)相差很大，把這種\(\mathcal{D}\)稱做「壞的」，Hoeffding不等式本質上是保證抽到壞的\(\mathcal{D}\)的機率有一個上限。記\(\vert\mathcal{H}\vert=M\)，即共有\(M\)個\(h\)，咱們想要保證的是無論最後\(\mathcal{A}\)選出了哪一個，\(\mathcal{D}\)是「壞的」的機率都有較小的上限，所以，要計算的應該是對至少一個\(h\)來講\(\mathcal{D}\)是「壞的」的機率：

\[\begin{aligned} &\mathbb{P}_{\mathcal{D}}[(\textbf{BAD } \mathcal{D} \text{ for } h_1) \textbf{ or } (\textbf{BAD } \mathcal{D} \text{ for } h_2) \textbf{ or } \ldots \textbf{ or } (\textbf{BAD } \mathcal{D} \text{ for } h_M) ]\\ \le& \mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_1] + \mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_2] +\ldots+\mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_M]\\ \le& 2\exp{(-2\epsilon^2 N)}+2\exp{(-2\epsilon^2 N)}+\ldots+2\exp{(-2\epsilon^2 N)}\\ =& 2M\exp{(-2\epsilon^2 N)} \end{aligned} \]

這纔是\(\mathcal{A}\)選出來的\(h\)的\(E_{\text{in}}(h)\)和\(E_{\text{out}}(h)\)距離的上限。但在上面的過程當中，由於對事件的並集直接用了加的運算，這個上限被放得太大了，因爲不一樣的\(h\)對應的「壞的」\(\mathcal{D}\)極可能有很大重疊，所以真實的上限應該要小得多。如圖：

另外，\(M\)若是是有限的，根據上式，咱們仍是能夠經過增大\(N\)來保證\(E_{\text{in}}(h)\)和\(E_{\text{out}}(h)\)足夠接近，但若是\(M\)是無限的呢？如在PLA中，係數的取值就能夠是無限多個，所以PLA的\(M\)是無窮大的。

2.3 VC維

\(M\)爲無窮大時，仍是有辦法的。儘管PLA的\(M\)是無窮大，但其實，咱們能夠對它的\(\mathcal{H}\)中的元素進行分類，只要樣本個數是有限的，它的類別就是有限的。好比在只有一個樣本的狀況中，二維PLA的\(\mathcal{H}\)中的元素（就是二維平面上的全部直線）能夠簡單分爲兩類，一類是把該樣本點分爲正的，一類是把該樣本點分爲負的：

而在兩個樣本的狀況中，\(\mathcal{H}\)中的元素能夠分爲4類：

三個樣本時可分爲8類：

但若3個點共線，那麼只有6類：

而當有4個樣本時，\(\mathcal{H}\)中的元素最多隻能分紅14類：

這說明，在PLA中，有\(N\)個樣本時，有效的\(M\)會小於等於\(2^N\)。

接下來，引入幾個概念：

二分（Dichotomies）：對\(N\)個樣本，每一個樣本都有正負兩種可能，將全部樣本組成的每一種可能稱爲一個dichotomy，dichotomies的集合可記爲\(\mathcal{H}(\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N)\)，顯然，集合中元素個數的上限是\(2^N\)；
成長函數（Growth Function）：定義成長函數\(m_{\mathcal{H}}(N)=\max\limits_{\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N \in \mathcal{X}} \vert \mathcal{H}(\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N) \vert\)，它的上限是\(2^N\)，對於大多數模型（如二維感知機）的\(\mathcal{H}\)來講，\(m_{\mathcal{H}}(N)\)比\(2^N\)小，僅爲多項式大小；
打散（Shatter）：若是\(\mathcal{H}\)能夠徹底實現\(N\)個樣本的\(2^N\)種dichotomies，則稱\(N\)個點可被\(\mathcal{H}\)打散；
突破點（Break Point）：若\(k\)個點不管如何也沒法被\(\mathcal{H}\)打散，則稱\(k\)爲\(\mathcal{H}\)的break point，根據定義，全部比\(k\)大的整數也都會成爲break points，對於二維感知機來講，從4開始就是它的break point。

接下來就是要找到，break point和\(m_{\mathcal{H}}(N)\)的關係。

咱們繼續引入界限函數（Bounding Function）的概念：\(B(N,k)\)，它是當最小的break point爲\(k\)時的最大可能\(m_{\mathcal{H}}(N)\)。那麼，該如何計算它或者它的上限？

首先，當\(k=2\)時，表示任意兩個點都不能被打散，所以當\(N=2\)時有\(B(2,2)=3\)，即最多能列舉出3種dichotomies（4種就是這兩個點被打散了），當\(N=3\)時有\(B(3,2)=4\)（窮舉法可知）。而當\(k=1\)時，因爲任何一個點都不能被打散，所以只能有一種dichotomy，即\(B(N,1)=1\)。另外，若是\(k>N\)，因爲小於\(k\)個樣本點都能被打散，所以會有\(B(N,k)=2^N\)。而若是\(N=k\)，那麼只需在\(2^N\)個被打散的點中拿掉一種dichotomy，就能知足這\(N\)個點不被打散的概念了，所以有\(B(N,k)=2^N-1\)。

到目前爲止，在下面這張函數表中還有一部分沒有計算：

不妨先來看\(B(4,3)\)該如何計算。若是用窮舉法，能夠得出\(B(4,3)=11\)：

觀察這11種dichotomies發現，它們能夠分紅兩組，其中一組的前3個點是有重複的，它們成爲不一樣的dichotomies僅僅是由於\(\mathbf{x}_4\)不一樣，而另外一組的前3個點沒有重複。

若是把前3個點有重複的8種dichotomies記爲\(2\alpha\)（只看前3個點就是\(\alpha\)種），後3種記爲\(\beta\)，那麼就有\(2\alpha+\beta=11\)。而其實，\(B(4,3)\)無非就是比\(B(3,\cdot)\)多了一個點，假設如今把最後一個點去掉，那麼前3個點只可能有\(\alpha+\beta\)種dichotomies（由於第一組\(2\alpha\)種是前面3個點各重複兩次，所以須要剔除一半），因爲\(B(4,3)\)中任意3個點都不能被打散，所以前3個點也必須不能被打散，因此有\(\alpha+\beta\le B(3,3)\)。

另外一方面，因爲\(2\alpha\)組中的4個點中，任意3個點都不能被打散，而第4個點是在每一組前3個點固定的狀況下取正/負，所以前3個點中的任意2個點都不能被打散（不然在加入第4個點後就會有3個點被打散）。所以，必需要保證\(\alpha\le B(3,2)\)。

由此可知，\(B(4,3)=2\alpha+\beta \le B(3,3)+B(3,2)\)，以此類推，有\(B(N,k)\le B(N-1,k)+B(N-1,k-1)\)，最終結果如圖：

用數學概括法便可證實：\(B(N,k)\le \sum\limits_{i=0}^{k-1}\binom{N}{i}\)，具體過程在此略過。事實上，能夠證實得\(B(N,k)=\sum\limits_{i=0}^{k-1}\binom{N}{i}\)，具體的數學過程較複雜，課程中也略過了。該式說明，\(B(N,k)\)中成長最快的一項最多就是\(N^{k-1}\)的成長速度。

由\(B(N,k)\)的定義，只要break point \(k\)存在，那麼\(m_{\mathcal{H}}(N)\)的上限就是\(B(N,k)\)，也所以，\(m_{\mathcal{H}}(N)\)中成長最快的一項最多就是\(N^{k-1}\)的成長速度。

在有了\(m_{\mathcal{H}}(N)\)後，想用它取代\(M\)，還須要作一些處理，具體在此略過。最後能夠獲得的是Vapnik-Chervonenkis（VC） bound：

\[\mathbb{P}[\exists h \in \mathcal{H} \text{ s.t. }\vert E_{\text{in}}(h)-E_{\text{out}}(h)\vert>\epsilon]\le 4 m_{\mathcal{H}}(2N)\exp{(-\dfrac{1}{8}\epsilon^2 N)} \]

定義VC維（VC dimension）\(d_{\text{vc}}(\mathcal{H})\)爲知足\(m_{\mathcal{H}}(N)=2^N\)的最大的\(N\)，也即\(\mathcal{H}\)能打散的最大的點的個數，或最小的break point減1。當\(N\ge2\)且\(d_{\text{vc}}\ge 2\)時，有\(m_{\mathcal{H}}(N)\le N^{d_{\text{vc}}}\)。

對於\(d\)維感知機模型來講，有\(d_{\text{vc}}=d+1\)（證實略）。只要\(d_{\text{vc}}\)是有限的，就能夠完成泛化。\(d_{\text{vc}}(\mathcal{H})\)就至關因而\(\mathcal{H}\)的powerfulness。

2.4 VC Bound與模型複雜度懲罰

對於\(g=\mathcal{A}(\mathcal{D})\in \mathcal{H}\)，若是\(\mathcal{D}\)在統計上足夠大，有

\[\mathbb{P}[\vert E_{\text{in}}(g)-E_{\text{out}}(g)\vert>\epsilon]\le 4 (2N)^{d_{\text{vc}}} \exp{(-\dfrac{1}{8}\epsilon^2 N)} \]

不等式左側表示「壞的」的概率。若將不等式右邊記爲\(\delta\)，可將\(\epsilon\)反表示爲\(\epsilon=\sqrt{\dfrac{8}{N}\ln{\dfrac{4(2N)^{d_{\text{vc}}}}{\delta}}}=\Omega(N,\mathcal{H},\delta)\)，\(\Omega(N,\mathcal{H},\delta)\)就表明了對模型複雜度的懲罰。

能夠看出，至少有\(1-\delta\)的機率，能知足

\[E_{\text{out}}(g)\le E_{\text{in}}(g)+\Omega(N,\mathcal{H},\delta) \]

\(d_{\text{vc}}\)和error的關係以下圖：

要找到最優的\(d_{\text{vc}}\)，才能使error最小。

VC Bound只是一個很是寬鬆的理論界限。好比設定\(\epsilon=0.1\)，\(\delta=0.1\)，\(d_{\text{vc}}=3\)，那麼根據前式，可獲得\(N\approx 10,000 d_{\text{vc}}\)，但在實踐中，每每只須要\(N\approx 10 d_{\text{vc}}\)的數據量就夠了。

2.5 有噪聲時的VC Bound

若是標籤被打錯了，或是同一我的被打了不一樣標籤，又或是\(\mathbf{x}\)的信息不許確，都會引入噪聲。在有噪聲時，VC Bound依舊有效嗎？

回到以前小球的例子，以前的小球，每一個小球的顏色都是肯定的，這種狀況叫作是「deterministic」的，在有噪聲的狀況中，能夠認爲每一個小球的顏色服從某種機率，即\(y\sim P(y|\mathbf{x})\)，這叫作是「probabilistic」的。能夠證實若是\((\mathbf{x},y)\mathop{\sim}^{i.i.d.}P(\mathbf{x},y)\)，那麼VC理論依舊是有效的。

有噪聲時，學習的目標是在常見的樣本\(P(\mathbf{x})\)上，學習\(P(y|\mathbf{x})\)。新的學習流程以下：

VC理論依舊有效，pocket算法就是個很好的例子。

3 偏差度量

在這裏介紹一種逐點的偏差度量（pointwise error measure），能夠表達成\(\text{err}(g(\mathbf{x}), f(\mathbf{x}))\)，\(g(\mathbf{x})\)可記爲\(\tilde{y}\)，\(f(\mathbf{x})\)可記爲y。

有兩種比較重要的pointwise error measure：

\(\text{err}(\tilde{y}, y)=\mathbb{1}_{[\tilde{y} \ne y]}\)，這通常用在分類問題中；
\(\text{err}(\tilde{y}, y)=(\tilde{y} - y)^2\)，這通常用在迴歸問題中。

在有了偏差度量後，學習流程以下：

在分類問題中，錯誤可分爲兩類，以下圖所示：

根據這兩類錯誤的重要性不一樣，能夠對它們賦予不一樣的權重。所以，不一樣的應用能夠有不一樣的\(\text{err}\)。在算法中考慮偏差度量時（記用在算法中的錯誤度量爲\(\widehat{\text{err}}\)），最好的狀況固然是直接令\(\widehat{\text{err}}=\text{err}\)，但這可能會致使很難計算，好比會帶來NP-hard問題等，通常來講，最好要設計一個對於\(\mathcal{A}\)來講能比較容易進行最優化的\(\widehat{\text{err}}\)，最好要有閉式解（closed-form solution）或有凸的目標函數。

在\(\mathcal{A}\)中加入偏差度量的設計後，學習流程以下：

對於兩類錯誤權重不一樣的狀況，能夠用「virtual copying」的策略去學習。以pocket算法爲例，假設false reject錯誤的權重爲1，false accept錯誤的權重爲1000，在計算時沒必要真的對每一個樣本點賦予權重，能夠「虛擬地」將\(y=-1\)的點複製1000份。在實踐中，也沒必要真的複製，能夠在隨機選擇樣本點時，讓算法隨機選出\(y=-1\)的點的機率增大1000倍便可。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。