PRML閱讀筆記(一)

時間 2019-12-04

標籤 prml 閱讀筆記简体版

原文原文鏈接

Ch1 introduction緒論

模式識別（pattern recognition）html

The field of pattern recognition is concerned with the automatic discovery of regularities in data through the use of computer algorithms and with the use of these regularities to take actions such as classifying the data into different categories. 利用計算機算法自動發現數據中的規律，使用這些規律採起將數據分類等行動。web
機器學習算法（machine learning algorithm）算法
- 輸入向量x ；輸出向量y網絡
  
  訓練階段，學習階段，肯定y(x)的精確形式app
  
  泛化（generalization）：正確分類與訓練集不一樣的新樣本的能力框架
  
  預處理：特徵抽取（feature extraction），變換原始輸入向量到新的變量空間使模式識別問題更容易解決；加快計算速度。例如：數字識別問題中圖像被轉化縮放使得每一個數字能被包含到一個固定大小的盒子中機器學習
- 有監督學習（supervised learning）ide
  
  訓練數據的樣本包含輸入向量以及對應的目標向量。svg
  
  如：數字識別，給每一個輸入向量分配到有限數量離散標籤中的一個-----分類（classification）；輸出由一個或者多個連續變量組成----迴歸（regression）函數
- 無監督學習（unsupervised learning）
  
  訓練數據由一組輸入向量x組成，沒有任何對應的目標值。
  
  如：發現數據中類似樣本的分組----聚類（clustering）；決定輸入空間中數據的分佈----密度估計（density estimation）；數據從高維空間投影到二維或者三維空間----數據可視化（visualization）
- 強化學習（reinforcement learning） (不是很瞭解，能夠去查閱相關的詳細資料)
  
  在給定的條件下，找到合適的動做，使得獎勵達到最⼤值。

1.1例子：多項式曲線擬合

輸入變量 $x$ ；目標變量 $t$ ；數據由 $\sin{(2\pi x)}$ 生成，目標變量帶有隨機的噪聲

訓練集：x $\equiv {(x_1,\ldots,x_N)}$ ;t $\equiv(t_1,\ldots,t_N)$ ;x的生成：選擇 $x_n(n=1,\ldots,N)$ 的值，其中 $x_n$ 均勻分佈在區間 $[0,1]$ ;t的生成： $\sin{(2\pi x)}$ ，再給每一個點增長一個小的符合高斯分佈的隨機噪聲
目標：利用訓練集預測對應於輸入變量的新值 $\hat{x}$ 的目標變量的值 $\hat{t}$

使用多項式函數擬合數據

目標函數：
$y(x,\boldsymbol w)=w_0+w_1 x+w_2 x^2+\ldots+w_M x^M=\sum_{j=0}^M w_j x^j$
$M$ 是多項式的階數（order）， $x_j$ 表示 $x$ 的 $j$ 次冪，係數 $w_0,\ldots,w_M$ 記做向量 $\boldsymbol w$ 。 $y(x,\boldsymbol w)$ 是 $x$ 的非線性函數，是係數 $\boldsymbol w$ 的線性函數
偏差函數：
$E(\boldsymbol w)=\frac{1}{2} \sum_{n=1}^N\left\{y(x_n,\boldsymbol w)-t_n\right\}^2$
因子 $\frac{1}{2}$ 是爲了後續運算方便而加入的，偏差函數非負，當且僅當函數 $y(x,\boldsymbol w)$ 對全部的訓練數據點均做出正確預測時，偏差函數爲0；
目標：選擇使得 $E(\boldsymbol w)$ 儘可能小的 $\boldsymbol w$

偏差函數是 $\boldsymbol w$ 的二次函數，導數是 $\boldsymbol w$ 的線性函數，則最小值有一個惟一解，記做 $\boldsymbol w^*$

存在問題：選擇多項式的階數 $M$ ----模型對比（model comparison）or模型選擇（model selection）

9階時獲得了對於訓練數據的一個完美擬合， $E(\boldsymbol w^*)$ =0,擬合的曲線劇烈震盪，表現不好----過擬合（over-fitting）

均方根偏差：
$E_{RMS}=\sqrt{2E(\boldsymbol w^*)/N}$
除以 $N$ 目的是以相同的基礎對比不一樣大小的數據集；平方根確保 $E_{RMS}$ 與 $t$ 使用相同的規模和單位

隨着 $M$ 的增大，係數變大。 $M=9$ ，有着更大的 $M$ 值的更靈活的多項式被過度地調參使得多項式被調節成了與目標值的隨機噪聲相符，致使了過擬合現象

對一個給定的模型複雜度，當數據集的規模增長時，過擬合問題變得不嚴重。即數據集規模越大，能用來擬合數據的模型就越複雜（越靈活）。要求數據點的數量不該該小於模型的可調節參數的數量的若干倍（如5或10）。然而參數的數量對於模型複雜度的大部分合理的度量來講都不是必要的

上圖中 $M=9$

控制過擬合：正則化（regularization）----收縮法（shrinkage），二次正則項稱山脊迴歸（ridge regression），神經網絡中叫權值衰減（weight decay）
$\tilde{E}(\boldsymbol w)=\frac{1}{2} \sum_{n=1}^{N}\left\{y(x_n,\boldsymbol w)-t_n\right\}^2+\frac{\lambda}{2}\left\|\boldsymbol w\right\|^2$
其中 $\left\|\boldsymbol w\right\|^2=\boldsymbol w^T\boldsymbol w=w_0^2+w_1^2+\ldots+w_M^2$

一般係數 $w_0$ 從正則化項中省略，由於包含 $w_0$ 會使得結果依賴於目標變量原點的選擇，也能夠包含但必須有本身的正則化係數

下圖中 $M=9$ ，隨着 $\lambda$ 的增大，係數變小

1.2機率論

機率論提供了一個合理的框架用來對不肯定性進行量化和計算，構成了模式識別的一箇中心基礎

一個例子：紅盒子和藍盒子，蘋果和橘子。紅盒子中有2個蘋果和6個句子，藍盒子中有3個蘋果和1個橘子

選擇的盒子的顏色記爲隨機變量 $B$ ,取值 $r$ 或 $b$ . $p(r)=\frac{4}{10}$ , $p(b)=\frac{6}{10}$

選擇的水果的種類記爲隨機變量 $F$ ,取值 $a$ 或 $o$

通常情形：隨機變量 $X$ 和 $Y$ ， $x_i(i=1,\ldots,M)$ ; $y_j(j=1,\ldots,L)$ ; $N$ 次試驗， $X=x_i$ 且 $Y=y_j$ 的試驗數量記爲 $n_{ij}$
$p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}$

$p(X=x_i)=\frac{c_i}{N}=\sum_{j=1}^{L}{p(X=x_i,Y=y_j)}$

$p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}$

$p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)$

機率論的兩條基本規則：

加法準則（sum rule） $p(X)=\sum_Y{p(X,Y)}$

乘法準則（product rule） $p(X,Y)=P(Y|X)P(X)$

根據這兩條規則，以及對稱性 $p(X,Y)=p(Y,X)$ ,獲得：
- 貝葉斯定理
  $p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}$
- 貝葉斯定理的分母,歸一化常數
  $p(X)=\sum_Y{p(X|Y)p(Y)}$
先驗機率（prior probability): $p(B)$ 觀察到水果種類以前就能獲得的機率

後驗機率（posterior probability): $p(B|F)$

1.2.1機率密度（probability density）

若是一個實值變量 $x$ 的機率落在區間 $(x,x+\delta x)$ 的機率由 $p(x)\delta x$ 給出 $(\delta x\to0 )$ , $p(x)$ 是機率密度
$p(x\in (a,b))=\int_{a}^{b}p(x)dx$

$p(x)\ge 0$

$\int_{-\infty}^{\infty}p(x)dx=1$

$p_y(y)=p_x(x)\left|\frac{dx}{dy}\right|=p_x(g(y))\left|g^\prime(y)\right|$

$P(z)=\int_{-\infty}^{z}p(x)dx$

加法和乘法規則：
$p(x)=\int p(x,y)dy$

$p(x,y)=p(y|x)p(x)$

1.2.2指望和協方差

指望（expectation）

離散變量 $\mathbb E[f]= \sum_{x} p(x)f(x)$

連續變量 $\mathbb E[f]=\int p(x)f(x)dx$

給定有限數量的 $N$ 個點 $\mathbb E[f]\simeq \frac{1}{N} \sum_{n=1}^N f(x_n)$

多變量 $\mathbb E_x[f(x,y)|y]=\sum_x p(x|y)f(x)$
方差（variance）：

$var[f]=\mathbb E[(f(x)-\mathbb E[f(x)])^2]=\mathbb E[f(x)^2]-\mathbb E[f(x)]^2$

$var[x]=\mathbb E[x^2]-\mathbb E[x]^2$
協方差（covariance）

$cov[x,y]=\mathbb E_{x,y}[\left\{x-\mathbb E[x]\right\}\left\{y-\mathbb E[y]\right\}]=\mathbb E_{x,y}[xy]-\mathbb E[x]E[y]$

向量 $cov[\boldsymbol x,\boldsymbol y]=\mathbb E_{x,y}[\left\{x-\mathbb E[x]\right\}\left\{\boldsymbol y^T-\mathbb E[\boldsymbol y^T]\right\}]=\mathbb E_{x,y}[\boldsymbol x\boldsymbol y^T]-\mathbb E[\boldsymbol x]E[\boldsymbol y^T]$

1.2.3貝葉斯機率

使用機率論來描述模型參數（例如 $w$ ）的不肯定性，或者模型自己的選擇

貝葉斯定理：

在觀察到數據以前，有一些關於參數 $w$ 的假設，以先驗機率 $p(w)$ 的形式給出；

觀察數據 $\mathcal D=\left\{t_1,\ldots,t_N\right\}$ 的效果經過條件機率 $p(\mathcal D|w)$ 表達
$p(\boldsymbol w|\mathcal D)=\frac{p(\mathcal D|\boldsymbol w) p(\boldsymbol w)}{p(\mathcal D)}$
其中 $p(\mathcal D|w)$ 是似然函數，由觀測數據集 $\mathcal D$ 來估計，當作參數向量 $w$ 的函數。表達了在不一樣參數向量 $w$ 下，觀測數據出現的可能性的大小。它不是 $w$ 的機率分佈，關於 $w$ 的積分並不（必定）等於1.

貝葉斯定理的天然語言表述
$posterior \propto likehood\times prior$
貝葉斯公式的分母是一個歸一化常數，積分爲1.對公式兩側關於 $w$ 進行積分，獲得貝葉斯定理的分母：
$p(\mathcal D)=\int p(\mathcal D|\boldsymbol w)p(\boldsymbol w)d\boldsymbol w$
似然函數（likehood function）： $p(\mathcal D|\boldsymbol w)$

頻率學家的觀點： $w$ 被認爲是一個固定的參數，它的值由某種形式的「估計」肯定，這個估計的偏差經過考察可能的數據集 $\mathcal D$ 的機率分佈來獲得

貝葉斯的觀點：只有一個數據集 $\mathcal D$ （即實際觀測到的數據集）參數的不肯定性經過 $w$ 的機率分佈來表達用極大似然估計，其中 $w$ 的值是使似然函數 $p(\mathcal D|w)$ 達到最大值的 $w$ 值，即選擇使觀察到的數據集出現機率最大的 $w$ 的值

批評：先驗機率的選擇一般是爲了計算的方便而不是爲了反映出任何先驗的知識；對於先驗選擇的依賴性

困難：計算複雜

極大似然估計，其中 $\boldsymbol w$ 的值是使似然函數 $p(\mathcal D|\boldsymbol w)$ 達到最大值的 $\boldsymbol w$ 值，即選擇使觀察到的數據集出現機率最大的 $\boldsymbol w$ 的值

偏差函數：似然函數的負對數，單調遞減。最大化似然函數等價於最小化偏差函數

1.2.4高斯分佈（gaussian/normal）

一元實值變量 $x$ ：
$\mathcal N(x|\mu,\sigma ^2)=\frac{1}{(2\pi \sigma ^2)^{\frac{1}{2}}}\exp \left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}$
$\mu$ 均值， $\sigma ^2$ 方差， $\beta =\frac{1}{\sigma ^2}$ 精度（precision）
$D$ 維 $\boldsymbol x$ :
$\mathcal N(\boldsymbol x|\boldsymbol \mu, \sum)=\frac{1}{(2\pi)^{\frac{D}{2}} } \frac{1}{\left|\sum\right|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(\boldsymbol x-\boldsymbol \mu)^T \begin{matrix}\sum^{-1}(\boldsymbol x-\boldsymbol \mu)\end{matrix} \right\}$
其中 $D$ 維向量 $\mu$ 是均值， $D\times D$ 的矩陣 $\sum$ 是協方差， $|\sum|$ 是行列式
最大似然法：

觀測數據集 $\boldsymbol {\mathrm x}=(x_1,\ldots,x_N)^T$ ,表示標量變量 $x$ 的 $N$ 次觀測，區別向量 $\boldsymbol x$ 變量 $(x_1,\ldots,x_d)^T$

獨立同分布（independent and identically distributed）：獨立地從相同的數據點中抽取的數據點，縮寫i.i.d

數據集 $\boldsymbol {\mathrm x}$ 的機率(即高斯分佈的似然函數)爲
$p(\boldsymbol {\mathrm x}|\mu,\sigma ^2)=\prod_{n=1}^N \mathcal N(x_n|\mu,\sigma ^2)$
對數似然函數爲
$\ln p(\boldsymbol {\mathrm x}|\mu,\sigma ^2)=-\frac{1}{2\sigma ^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln \sigma^2-\frac{N}{2}\ln(2\pi)$
$\mu$ 的最大似然解爲
$\mu_{ML}=\frac{1}{N}\sum _{n=1}^Nx_n=\bar x$
即爲樣本均值。

$\sigma ^2$ 的最大似然解爲
$\sigma_{ML}^2=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{ML})^2=M_2$
Z這是關於樣本均值 $\mu_{ML}$ 的樣本方差，也是二階樣本中心矩 $M_2$ 。
$\mathbb E[\mu_{ML}]=\mu$

$\mathbb E[\sigma_{ML}^2]=(\frac{N-1}{N})\sigma^2$

能夠看出最大似然估計的均值正確，可是最大似然求出的方差估計不是方差的無偏估計，低估了方差。這是一種叫作偏移（bias）的現象，與多項式曲線擬合問題中遇到的過擬合問題相關。在實際應用中，只要 $N$ 不過小，那麼偏移的現象就不是個大問題。可是咱們更多地關注帶有不少參數的複雜模型，它們的最大似然的偏移問題會更加嚴重。實際上，最大似然的偏移問題是咱們在多項式曲線擬合問題中遇到的過擬合問題的核心。以下圖：

所以將 $M_2$ 的分母 $N$ 修正爲 $N-1$ 得到樣本方差，此時纔是對方差參數的估計是無偏的。以下：
$\tilde \sigma^2=\frac{N-1}{N}\sigma_{ML}^2=\frac{1}{N-1}\sum_{n=1}^N(x_n-\mu_{ML})^2=S_2$
上式 $\mathbb E[\sigma_{ML}^2]=(\frac{N-1}{N})\sigma^2$ 的推導以下：
$\sum_{n=1}^N(x_n-\mu_{ML})^2=\sum_{n=1}^N[(x_n-\mu)-(\bar x-\mu)]^2$

$=\sum_{n=1}^N(x_n-\mu)^2-2(\bar x-\mu)\sum_{n=1}^N(x_n-\mu)+n(\bar x-\mu)^2$

$=\sum_{n=1}^N(x_n-\mu)^2-2(\bar x-\mu)n(\bar x-\mu)+n(\bar x-\mu)^2=\sum_{n=1}^N(x_n-\mu)^2-n(\bar x-\mu)^2$

即
$\sum_{n=1}^N(x_n-\mu_{ML})^2=\sum_{n=1}^N(x_n-\mu)^2-n(\bar x-\mu)^2$
而
$\mathbb E[(x_n-\mu)^2]=var[x_i]=\sigma ^2$

$\mathbb E[(\bar x-\mu)^2]=var[\bar x]=var[\frac{1}{N}\sum _{n=1}^Nx_n]=\frac{1}{N}\sum _{n=1}^Nvar[x_n]=\frac{\sigma^2}{N}$

因此
$\mathbb E[\sigma_{ML}^2]=\mathbb E[\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{ML})^2]=\frac{1}{N}\mathbb E[\sum_{n=1}^N(x_n-\mu_{ML})^2]$

$=\frac{1}{N}\mathbb E[\sum_{n=1}^N(x_n-\bar x)^2]=\frac{1}{N}(\sum_{n=1}^N\sigma^2-N\frac{\sigma^2}{N})=(\frac{N-1}{N})\sigma^2$

1.2.5從新考慮曲線擬合問題

曲線擬合的目標： $N$ 個輸入x $= {(x_1,\ldots,x_N)}$ 和對應的目標值t $=(t_1,\ldots,t_N)$ ，在給出輸入變量 $x$ 的新值的狀況下，對目標變量 $t$ 進行預測。

用機率分佈來表達關於目標變量的值的不肯定性。作法以下：

給定 $x$ 的值，對應的 $t$ 值服從高斯分佈，分佈的均值爲 $y(x,\boldsymbol w)$ 。所以有
$p(t|x,\boldsymbol w,\beta)=\mathcal N(t|y(x,\boldsymbol w),\beta^{-1}))$

用訓練數據{x,t}經過最大似然法決定未知參數 $\boldsymbol w$ 和 $\beta$ 的值

似然函數：
$p(\boldsymbol {\mathrm t}|\boldsymbol {\mathrm x},\boldsymbol w,\beta)=\prod_{n=1}^N\mathcal N(t_n|y(x_n,\boldsymbol w),\beta^{-1}))$
對數似然函數：
$\ln p(\boldsymbol {\mathrm t}|\boldsymbol {\mathrm x},\boldsymbol w,\beta)=-\frac{\beta}{2}\sum_{n=1}^N\left\{y(x_n,\boldsymbol w)-t_n\right\}^2+\frac{N}{2}\ln \beta-\frac{N}{2}\ln (2\pi)$
考慮多項式係數的最大似然解（ $\boldsymbol w_{ML}$ ）:

由上式中與 $\boldsymbol w$ 有關的式子肯定。省略最後兩項，且使用一個正的常數係數來縮放對數似然函數並不會改變關於 $\boldsymbol w$ 的最大值的位置，所以用 $\frac{1}{2}$ 來代替係數 $\frac{\beta}{2}$ 。最後等價地最小化負對數似然函數。因而最大化似然函數等價於最小化平方和偏差函數。所以，在高斯噪聲的假設下，平方偏差函數是最大化似然函數的一個天然結果。

考慮精度 $\beta_{ML}$ :
$\frac{1}{\beta_{ML}}=\frac{1}{N}\sum_{n=1}^N\left\{y(x_n,\boldsymbol w_{ML})-t_n\right\}^2$
對新的 $x$ 的值進行預測

如今有一個機率模型，預測能夠經過給出 $t$ 的機率分佈的預測分佈來表示

預測分佈：
$p(t|x,\boldsymbol w_{ML},\beta_{ML})=\mathcal N(t|y(x,\boldsymbol w_{ML}),\beta_{ML}^{-1}))$
引入在多項式係數 $\boldsymbol w$ 上的先驗分佈：
$p(\boldsymbol w|\alpha)=\mathcal N(\boldsymbol w|y(\boldsymbol 0,\alpha ^{-1}\boldsymbol I)=(\frac{\alpha}{2\pi})^{\frac{M+1}{2}}\exp\left\{-\frac{\alpha}{2}\boldsymbol w^T\boldsymbol w\right\}$
其中 $\alpha$ 是預測分佈的精度，是超參數（控制模型參數分佈的參數）。 $M+1$ 是對於 $M$ 階多項式的向量 $\boldsymbol w$ 的元素的總數

使用貝葉斯定理：
$p(\boldsymbol w|\boldsymbol {\mathrm x},\boldsymbol {\mathrm t},\alpha,\beta)\propto p(\boldsymbol {\mathrm t}|\boldsymbol {\mathrm x},\boldsymbol w,\beta)p(\boldsymbol w|\alpha)$
最大化後驗機率肯定 $\boldsymbol w$ ----最大後驗（maximum posterior），簡稱MAP:

即最小化下式：
$\frac{\beta}{2}\sum_{n=1}^N\left\{y(x_n,\boldsymbol w_{ML})-t_n\right\}^2+\frac{\alpha}{2}\boldsymbol w^T\boldsymbol w$
所以最大化後驗機率等價於最小化正則化的平方和偏差函數，正則化參數爲 $\lambda=\frac{\alpha}{\beta}$

1.2.6貝葉斯曲線擬合

1.2.5中的問題：雖然有先驗分佈 $p(\boldsymbol w|\alpha)$ ，但仍在進行 $w$ 的點估計。

純粹的貝葉斯方法：自始至終地應用機率的加法規則和乘法規則。這須要對全部 $\boldsymbol w$ 值進行積分。這種積分對模式識別來講是貝葉斯方法的核心。

曲線擬合問題中，訓練數據x和t，新的測試點 $x$ ,預測 $t$ 的值。即估計預測分佈 $p(t|x,\boldsymbol {\mathrm x},\boldsymbol {\mathrm t})$ 。這裏要假設參數 $\alpha$ 和 $\beta$ 是固定的，事先知道的（？？）

預測機率：
$p(t|x,\boldsymbol {\mathrm x},\boldsymbol {\mathrm t})=\int p(t|x,\boldsymbol w)p(\boldsymbol w|\boldsymbol {\mathrm x},\boldsymbol {\mathrm t})d\boldsymbol w$
其中 $p(t|x,\boldsymbol w)$ 忽略了對 $\alpha$ 和 $\beta$ 的依賴。 $p(\boldsymbol w|\boldsymbol {\mathrm x},\boldsymbol {\mathrm t})$ 是參數的後驗分佈，是一個高斯分佈，能夠解析地求出
$p(t|x,\boldsymbol {\mathrm x},\boldsymbol {\mathrm t})=\mathcal N(t|m(x),s^2(x))$
均值和方差爲
$m(x)=\beta \phi(x)^T\boldsymbol S\sum_{n=1}^N\phi (x_n)t_n$

$s^2(x)=\beta^{-1}+\phi(x)^T\boldsymbol S\phi(x)$

能夠看出預測分佈的均值和方差依賴於 $x$ 。方差的第一項表示預測值 $t$ 的不肯定性，這種不肯定性由目標變量上的噪聲形成。在最大似然的預測分佈中，這種不肯定性經過 $\beta_{ML}^{-1}$ 表達

其中矩陣 $\boldsymbol S$ 由下式給出。方差的第二項對參數 $\boldsymbol w$ 的不肯定性有影響。
$\boldsymbol S^{-1}=\alpha \boldsymbol I+\beta\sum_{n=1}^N\phi(x_n)\phi(x_n)^T$
其中向量 $\phi(x)$ 被定義爲 $\phi_i(x)=x^i(i=0,\ldots,M)$

1.3模型選擇

擬合多項式曲線例子

多項式的階數控制了模型的自由參數的個數，所以控制了模型的複雜度

正則化係數 $\lambda$ 也控制了模型複雜度
更復雜的模型如混合分佈或神經網絡

可能存在多個控制模型複雜度的參數
模型選擇：
- 數據量很大：
  
  訓練出一系列的模型；
  
  獲得某個給定模型的一系列複雜度的參數值；
  
  在獨立數據集上（驗證集）比較；
  
  選擇預測表現最好的模型
- 數據有限：交叉驗證（cross validation）
  
  用可得數據的 $\frac{S-1}{S}$ 用於訓練；使用全部的數據來評估表現。數據至關稀疏的時候，考慮 $S=N$ ，其中 $N$ 是數據點的總數----留一法（leave-one-out）
缺點：須要進行訓練的次數隨着 $S$ 而增長，耗時；對於一個單一的模型，可能有多個複雜度參數（如可能有若干個正則化參數），最壞的狀況下探索這些參數的組合所需的訓練次數多是參數個數的指數函數。
- 理想狀況下：
  
  應該只依賴於訓練數據，應該容許在一輪訓練中對比多個超參數及模型類型；
  
  須要找到一種模型表現的度量，只依賴於訓練數據且不會因爲過擬合產生偏移的問題
信息準則（information criteria）

增長一個懲罰項來補償過於複雜的模型形成的過擬合

如：赤池信息準則（akaike information criteria）or AIC
$\ln(\mathcal D|w_{ML})-M$
選擇使這個量最大的模型。 $p(\mathcal D|w_{ML})$ 是最合適的對數似然函數， $M$ 是模型中可調節參數的數量。

缺點：沒有考慮模型參數的不肯定性，在實際應用中傾向於選擇過於簡單的模型

1.4維數災難

考慮一我的工合成的數據集，每一個數據點由一個12維的輸入向量組成，給出數據集裏的100個點的兩個份量 $x_6$ 和 $x_7$ ，預測「叉點」的類別

一種簡單的方法：

把輸入空間劃分紅小的單元格，首先判斷測試點屬於哪一個單元格，尋找訓練集中落在同一個單元格中的訓練數據點。測試點的類別就是測試點所在的單元格中數量最多的訓練數據點的類別。

問題：

把空間的區域分割成一個個的單元格，單元格的數量會隨着空間的維數以指數的形式增大。爲了保證單元格不爲空，須要指數量級的訓練數據。

考慮多項式擬合的問題。假設有 $D$ 個輸入變量，三階多項式以下：
$y(\boldsymbol x,\boldsymbol w)=w_o+\sum_{i=1}^Dw_ix_i+\sum_{i=1}^D \sum_{j=1}^Dw_{ij}x_ix_j+\sum_{i=1}^D\sum_{j=1}^D\sum_{k=1}^Dw_{ijk}x_ix_jx_k$
隨着 $D$ 的增長，獨立的係數的數量的增加速度正比於 $D^3$ 。對於一個 $M$ 飢階多項式，係數數量增加速度相似於 $D^M$
考慮 $D$ 維空間的一個半徑 $r=1$ 的球體，位於半徑 $r=1-\epsilon$ 和半徑 $r=1$ 之間的部分佔球的整體積的百分比
$V_D(r)=K_Dr^D$
其中常數 $K_D$ 值依賴於 $D$ ，體積比爲
$\frac{V_D(1)-V_D(1-\epsilon)}{V_D(1)}=1-(1-\epsilon)^D$
對於較大的 $D$ ，體積比趨近於1。所以，在高維空間中，一個球體的大部分體積都彙集在表面附近的薄球殼上。
考慮高維空間的高斯分佈。從笛卡爾座標系變化到極座標系，把方向變量積分出來即機率密度的表達式 $p(r)$ ，它是關於距離原點的半徑 $r$ 的函數。 $p(r)\delta r$ 是位於半徑 $r$ 處厚度爲 $\delta r$ 的薄球殼內部的機率質量。

能夠看到，對於大的 $D$ 值，高斯分佈的機率質量集中在薄球殼處。

尋找應用於高維空間的有效技術

緣由：

第一，真實的數據常常被限制在有着較低的有效維度的空間區域中。特別地在目標值會發生重要變化的方向上也會有這種限制。

第二，真實數據一般比較光滑（至少局部上比較光滑），所以大多數狀況下，對於輸入變量的微小改變，目標值的改變也很小。所以對於新的輸入變量，能夠經過局部的相似於插值的技術預測。

目前的有效解決方法：FM算法

1.5決策論

不肯定的狀況下作出最優的決策。具體地，如前面所述的輸入向量 $x$ 和對應的目標值向量 $t$ ，決策論的主題就是對 $t$ 的值作出具體的預測，根據對 $t$ 的可能去值得理解，採起一個具體的動做。

考慮一個醫療診斷問題，給病人拍了X光片，診斷是否得了癌症

輸入向量 $\boldsymbol x$ 是X光片的像素的灰度值集合，輸出變量 $\boldsymbol t$ 表示患有癌症（類 $C_1$ ）或不患癌症（類 $C_2$ ）
$p(\mathcal C_k|\boldsymbol x)=\frac{p(\boldsymbol x|\mathcal C_k)p(\mathcal C_k)}{p(\boldsymbol x)}$
目標：最小化把 $\boldsymbol x$ 分到錯誤類別中的可能性
相關概念：
- 決策區域（decision region）：把輸入空間切分紅不一樣的區域 $\mathcal R_k$ ，每一個類別都有一個決策區域，區域 $\mathcal R_k$ 中的全部點都被分到 $\mathcal C_k$ 類。注意，每個決策區域未必是連續的，能夠由若干個分離的區域組成
- 決策邊界（decision boundary）或決策面（desicion surface）：決策區域的邊界

1.5.1最小化錯誤分類率

錯誤分類的機率：
$p(\mathrm{mistake})=p(\boldsymbol x\in \mathcal R_1,\mathcal C_2)+p(\boldsymbol x \in \mathcal R_2,\mathcal C_1)=\int_{\mathcal R_1} {p(\boldsymbol x,\mathcal c_2)d \boldsymbol x}+\int_{\mathcal R_2}{p(\boldsymbol x,\mathcal c_1)d \boldsymbol x}$
最小化 $p(\mathrm{mistake})$ , 應該讓被積函數儘可能小。所以，給定的 $\boldsymbol x$ 值，若 $p(\boldsymbol x,\mathcal C_1)>p(\boldsymbol x,\mathcal C_2)$ ,則把 $\boldsymbol x$ 分到類別 $\mathcal C_1$ 中
$p(\boldsymbol x,\mathcal C_k)=p(\mathcal C_k|\boldsymbol x)p(\boldsymbol x)$
兩項的 $p(\boldsymbol x)$ 相同，所以，若把每一個 $\boldsymbol x$ 分配到後驗機率 $p(\mathcal C_k|\boldsymbol x)$ 最大的類別中，分類錯誤的機率就最小

最大化正確率：
$p(\mathrm {correct})=\sum_{k=1}^{K}p(\boldsymbol x \in \mathcal R_k,\mathcal C_k)=\sum_{k=1}^Kp(\boldsymbol x,\mathcal C_k)d\boldsymbol x$
當區域 $\mathcal R_k$ 的選擇使得每一個 $\boldsymbol x$ 都被分到使 $p(\boldsymbol x,\mathcal C_k)$ 最大的類別中時，上式取得最大值
$p(\boldsymbol x,\mathcal C_k)=p(\mathcal C_k|\boldsymbol x)p(\boldsymbol x)$
全部項的 $p(\boldsymbol x)$ 相同，每一個 $\boldsymbol x$ 都應該分配到後驗機率 $p(\mathcal C_k|\boldsymbol x)$ 最大的類別中

1.5.2最小化指望損失

不少應用下，目標不只僅是單純地最小化錯誤分類的數量。如醫療診斷的問題，有如下兩種錯誤及其結果：

錯誤1：沒有患癌症的病人錯誤地診斷爲患病 ;結果：可能給病人帶來一些壓力，且病人可能須要進一步確診

錯誤2：給患癌症的病人診斷爲健康 ; 結果：可能會由於缺乏治療而使病人過早死亡

這兩種錯誤的結果是不一樣的。第二種錯誤更致命，甚至因爲少犯第二種錯誤會致使第一種錯誤增長也不要緊。

損失函數（loss function）：也叫代價函數（cost function）。是對於全部可能的決策或者動做可能產生的損失的一種總體的度量。有學者考慮效用函數（utility function），最大化效用函數

目標：最小化總體的損失

對於新的 $\boldsymbol x$ 的值，真實的類別是 $\mathcal C_k$ ，把 $\boldsymbol x$ 分類爲 $\mathcal C_j$ （其中 $j$ 可能與 $k$ 相等，也可能不相等），形成的損失記爲 $L_{kj}$ (損失矩陣的第 $k$ ， $j$ 個元素)

最小化損失函數：

損失函數依賴於真實的類別，是未知的。對於一個給定的輸入向量 $\boldsymbol x$ ，聯合機率分佈 $p(\boldsymbol x,\mathcal C_k)$ 表示對於真是類別的不肯定性。所以，能夠轉化爲最小化平均損失。

平均損失：
$\mathbb E[L]=\sum_k \sum_j \int_{\mathcal R_j} L_{kj}p(\boldsymbol x,\mathcal C_k)d\boldsymbol x$
目標是選擇區域 $\mathcal R_j$ ,最小化指望損失。代表對於每一個 $\boldsymbol x$ ，最小化 $\sum_kL_{kj}p(\boldsymbol x,\mathcal C_k)$ .消掉共同因子 $p(\boldsymbol x)$ ，最小化指望損失的決策規則是對於每一個新的 $\boldsymbol x$ ，把它分到能使下式取得最小值的第 $j$ 類：
$\sum_k L_{kj}p(\mathcal C_k|\boldsymbol x)$
關鍵是找後驗機率 $p(\mathcal C_k|\boldsymbol x)$

1.5.3拒絕選項（reject option）

在發生分類錯誤的輸入空間中，後驗機率 $p(\mathcal C_k|\boldsymbol x)$ 一般遠小於1.等價地，不一樣類別的聯合分佈 $p(\boldsymbol x,\mathcal C_k)$ 有着可比的值。這些區域中，類別的歸屬相對不肯定。這時避免作出決策是更合適的。

如醫療例子中，合適的作法是：使用自動化的系統來對那些幾乎沒有疑問的X光片進行分類，把不容易分類的X光片留給人類的專家。

合適的方式：

引入閾值 $\theta$ ；

拒絕後驗機率 $p(\mathcal C_k|\boldsymbol x)$ 的最大值小於等於 $\theta$ 的那些輸入 $\boldsymbol x$

$\theta =1$ ,全部樣本都被拒絕； $\theta <\frac{1}{K}$ ,沒有樣本被拒絕（有 $K$ 個類別）

$\theta$ 過大，棄真；$\theta $太小，納僞

1.5.4 推斷和決策

分類問題劃分紅兩個階段：

推斷（inference）階段：使用訓練數據學習 $p(\mathcal C_k|\boldsymbol x)$ 的模型

決策（decision）階段：使用這些後驗機率進行最優的分類
另外一種方法：同時解決兩個問題，即簡單地學習一個函數，將輸入 $\boldsymbol x$ 直接映射爲決策。這種函數稱爲判別函數（discriminant function）
三種不一樣的解決決策問題的方法（複雜度依次下降）：
- 方法一：生成式模型
  
  對於每一個類別 $\mathcal C_k$ ，獨立地肯定類條件密度 $p(\boldsymbol x|\mathcal C_k)$ ----推斷問題;
  
  推斷先驗類機率 $p(\mathcal C_k)$ ;
  
  使用貝葉斯定理 $p(\mathcal C_k|\boldsymbol x)=\frac{p(\boldsymbol x|\mathcal C_k)p(\mathcal C_k)}{p(\boldsymbol x)}$ 求出後驗類機率；其中 $p(\boldsymbol x)=\sum_kp(\boldsymbol x|\mathcal C_k)p(\mathcal C_k)$ 。
  
  等價地，能夠直接對聯合機率分佈 $p(\boldsymbol x,\mathcal C_k)$ 建模，而後歸一化獲得後驗機率。再用決策論肯定新的輸入 $\boldsymbol x$ 的類別。
- 方法二：判別式模型
  
  肯定後驗類密度 $p(\mathcal C_k|\boldsymbol x)$ ----推斷問題
  
  用決策論肯定新的輸入 $\boldsymbol x$ 的類別
- 方法三：判別函數
  
  找一個函數 $f(\boldsymbol x)$ ，把每一個輸入 $\boldsymbol x$ 直接映射爲類別標籤
  
  與方法二的區別是：這種狀況下，機率不起做用
- 生成式模型和判別式模型：
  
  生成式模型（generative model）：顯式地或隱式地對輸入及輸出進行建模
  
  判別式模型（discriminative model）：直接對後驗機率建模
三種方法的比較分析
- 方法一：
  
  要求解的東西最多，涉及到尋找聯合機率分佈。 $\boldsymbol x$ 的維度很高致使須要大量的訓練數據才能在合理的精度下肯定類條件機率密度。事實上，類條件密度可能包含不少對於後驗機率⼏乎沒有影響的結構，以下圖：
  
  優勢是可以經過公式 $p(\boldsymbol x)=\sum_kp(\boldsymbol x|\mathcal C_k)p(\mathcal C_k)$ 求出數據的邊緣機率密度。可利用這來檢測模型中具備低機率的新數據點，這些點可能會致使模型的預測準確率下降，作離羣點outlier（異常點novelty）檢測
- 方法二：
  
  只求出後驗機率作出分類的決策時節省計算資源
- 方法三：
  
  使用訓練數據來尋找將每一個 $\boldsymbol x$ 直接映射爲類別標籤的判別 $f(x)$ ，把推斷階段和決策階段結合到一個學習問題中
計算後驗機率的理由：
- 最小化風險
  
  考慮一個問題，其中的損失矩陣的元素時刻都被修改（如金融應用中）。若知道後驗機率，只需修改 $\sum_k L_{kj}p(\mathcal C_k|\boldsymbol x)$ 中定義的最小風險決策準則便可。若只有判別準則，那麼損失矩陣的任何改變都須要返回訓練數據從新解決分類問題
- 拒絕選項
  
  若是給定被拒絕的數據點所佔的⽐例，後驗機率讓咱們可以肯定最⼩化誤分類率的拒絕標準，或者在更⼀般的狀況下肯定最⼩化指望損失的拒絕標準。
- 補償類先驗機率
  
  考慮醫療X光問題，一個將全部的點都斷定爲正常類別的分類器就已經可以達到99.9%的精度----平凡解。數據集極不平衡，須要修改訓練數據。
  
  然後須要補償修改訓練數據形成的影響。具體作法：把人造的平衡數據中獲得的後驗機率除以數據集裏的類比例，再乘以咱們想要應用模型的目標人羣中類別的比例。最後歸一化。即
  $\frac{人造的平衡數據中獲得的後驗機率}{數據集裏的類比例}\times 目標人羣中類別的比例$
- 組合模型
  
  複雜的應用能夠先分解成若干個小的子問題，每一個子問題均可以經過一個獨立的模型解決。
  
  考慮醫療診斷問題，可能有來自血液檢查的數據和X光片，獨立。
  $p(\boldsymbol x_I,\boldsymbol x_B|\mathcal C_k)=p(\boldsymbol x_I|\mathcal C_k)p(\boldsymbol x_B|\mathcal C_k)$
  這是條件獨立（conditional independence）的一個例子。這個獨立性假設是樸素貝葉斯模型（naive Bayes model）的一個例子後驗機率爲
  $p(\mathcal C_k|\boldsymbol x_I,\boldsymbol x_B)\propto p(\boldsymbol x_I,\boldsymbol x_B|\mathcal C_k)p(\mathcal C_k)\propto p(\boldsymbol x_I|\mathcal C_k)p(\boldsymbol x_B|\mathcal C_k)p(\mathcal C_k)$
  
  $\propto\frac{p(\mathcal C_k|\boldsymbol x_I)p(\mathcal C_k|\boldsymbol x_B)}{p(\mathcal C_k)}$
  
  須要經過估計每一個類別的數據點所佔的比例求出類先驗機率 $p(\mathcal C_k)$ ，後進行歸一化。

1.5.5迴歸問題的損失函數

推導一：

考慮迴歸問題，決策階段包括對於每一個輸入 $\boldsymbol x$ ，選擇一個對於 $t$ 值的具體的估計 $y(\boldsymbol x)$ ,形成損失 $L(t,y(\boldsymbol x))$ 。平均損失（指望損失）：
$\mathbb E[L]=\int\int L(t,y(\boldsymbol x))p(\boldsymbol x,t)d\boldsymbol xdt$

$L(t,y(\boldsymbol x))=\left\{y(\boldsymbol x)-t\right\}^2$

$\mathbb E[L]=\int\int \left\{y(\boldsymbol x)-t\right\}^2 p(\boldsymbol x,t)d\boldsymbol xdt$

目標：選擇 $y(\boldsymbol x)$ 來最小化 $\mathbb E[L]$ .使用變分法求解
$\frac{\partial {\mathbb E[L]}}{\partial {y(\boldsymbol x)}}=2\int \left\{y(\boldsymbol x)-t\right\}p(\boldsymbol x,t)dt=0$
求解 $y(\boldsymbol x)$ ：
$\int y(\boldsymbol x)p(\boldsymbol x,t)dt=\int tp(\boldsymbol x,t)dt$

$y(\boldsymbol x)\int p(\boldsymbol x,t)dt=y(\boldsymbol x)p(\boldsymbol x)=\int tp(\boldsymbol x,t)dt$

$y(\boldsymbol x)=\frac{\int tp(\boldsymbol x,t)dt}{p(\boldsymbol x)}=\int tp(t|\boldsymbol x)dt=\mathbb E_t[t|\boldsymbol x]$

在 $\boldsymbol x$ 的條件下 $t$ 的條件均值----迴歸函數（regression function）。這種狀況下，最優解是條件均值 $\boldsymbol y(\boldsymbol x)=\mathbb E_t[\boldsymbol t|\boldsymbol x]$
另外一種推導方法：
$\left\{y(\boldsymbol x)-t\right\}^2=\left\{y(\boldsymbol x)-\mathbb E[t|\boldsymbol x]+\mathbb E[t|\boldsymbol x]-t\right\}^2$

$=\left\{y(\boldsymbol x)-\mathbb E[t|\boldsymbol x]\right\}^2+2\left\{y(\boldsymbol x)-\mathbb E[t|\boldsymbol x]\right\}\left\{\mathbb E[t|\boldsymbol x]-t\right\}+\left\{\mathbb E[t|\boldsymbol x]-t\right\}^2$

其中 $\mathbb E[t|\boldsymbol x]=\mathbb E_t[t|\boldsymbol x]$ ，所以損失函數爲
$\mathbb E[L]=\int \left\{y(\boldsymbol x)-\mathbb E[t|\boldsymbol x]\right\}^2p(\boldsymbol x)d\boldsymbol x+\int \left\{\mathbb E[t|\boldsymbol x]-t\right\}^2p(\boldsymbol x)d\boldsymbol x$
當 $y(\boldsymbol x)=\mathbb E[t|\boldsymbol x]$ 時第一項取得最小值，消掉第一項。和以前的同樣代表，最優的最⼩平⽅預測由條件均值給出。

第二項是 $t$ 的分佈的方差，在 $\boldsymbol x$ 上的平均。表示目標數據內在的變化性，能夠被看作噪聲，是損失函數的不可減少的最小值。
三種解決迴歸問題的方法（複雜度下降的順序）：
- 方法一：
  
  解決肯定聯合機率密度 $p(\boldsymbol x,t)$ 的推斷問題
  
  計算條件機率密度 $p(t|\boldsymbol x)$
  
  求出條件均值
- 方法二：
  
  首先解決條件機率密度 $p(t|\boldsymbol x)$ 的推斷問題
  
  計算條件均值
- 方法三：
  
  直接從訓練數據中尋找一個迴歸函數 $y(\boldsymbol x)$
平方損失函數的一種推廣----閔可夫斯基損失函數（Minkowski loss）

指望爲
$\mathbb E[L_q]=\int \int |y(\boldsymbol x)-t|^qp(\boldsymbol x,t)d\boldsymbol xdt$
當q = 2時， $\mathbb E[L_q]$ 的最⼩值是條件均值。當q = 1時， $\mathbb E[L_q]$ 的最⼩值是條件中位數。當 $q\to 0$ 時， $\mathbb E[L_q]$ 的最⼩值是條件衆數

1.6信息論

信息量：

有兩個不相關的事件 $x$ 和 $y$ ，

觀察到兩個事件同時發生時得到的信息等於觀察到事件各自發生時得到的信息之和，即
$h(x,y)=h(x)+h(y)$
兩個不相關事件是統計獨立的，即
$p(x,y)=p(x)p(y)$
所以有
$h(x)=-\log_2p(x)$
其中負號確保了信息⼀定是正數或者是零。信息論的廣泛傳統使用2做爲對數的底，單位是bit
隨機變量 $x$ 的熵：

假設想傳輸一個隨機變量 $x$ 的值，傳輸的平均信息量（即指望）爲
$H[x]=-\sum_xp(x)\log_2p(x)$
注意 $\lim_{p\to 0}p\log)2p(x)=0$ ，所以只要有 $x$ 使得 $p(x)=0$ ，就該令 $p(x)\log_2p(x)=0$

非均勻分佈比均勻分佈的熵小。

熵是傳輸一個隨機變量狀態值所需的比特位的下界。
編碼的平均長度：

使用更短的編碼描述更可能的事件，更長的編碼描述不太可能的事件

使用編碼串：0、十、1十、11十、111100、11110一、1111十、111111表示狀態{ $a,b,c,d,e,f,g,h$ }

傳輸的編碼的平均長度是
$average code length=\frac{1}{2}\times 1+\frac{1}{4}\times 2+\frac{1}{8}\times 3+\frac{1}{16}\times 4+4\times \frac{1}{64}\times 6=2 bits$
注意不能使用更短的編碼串，由於必須可以從多個這種字符串的拼接中分割出各個獨立的字符串。如11001110惟一的編碼了狀態序列 $c,a,d$
熵等同於最短編碼長度
熵的理解：

最先源於物理學，描述統計力學中的無序程度的度量。

考慮⼀個集合，包含 $N$ 個徹底相同的物體，這些物體要被分到若⼲個箱⼦中，使得第 $i$ 個箱⼦中有 $n_i$ 個物體。考慮把物體分配到箱子中的不一樣方案的數量。有 $N$ 種方式選擇第一個物體， $N-1$ 種方式選擇第二個物體，總共有 $N!$ 種方式把 $N$ 個物體分配到箱子中。在第 $i$ 個箱⼦中，有 $n_i$ 種方式對物體從新排序。不區分每一個箱子內部物體的從新排列。總方案數量爲
$W=\frac{N!}{\prod_in_i!}$
稱爲乘數（multiplicity）。

熵被定義爲經過適當的參數放縮後的對數乘數，即
$H=\frac{1}{N}\ln W=\frac{1}{N}\ln N!-\frac{1}{N}\sum_i\ln n_i!$
考慮極限 $N\to \infty$ ，保持比值 $\frac{n_i}{N}$ 固定，使用Stirling的估計
$\ln N!\simeq N\ln N-N$

$p_i=\lim_{N\to \infty}(\frac{n_i}{N})$

獲得
$H=\frac{1}{N}\ln N!-\frac{1}{N}\sum_i\ln n_i!=\frac{1}{N}(N\ln N-N)-\frac{1}{N}\sum_i(n_i\ln n_i-n_i)$

$=\ln N-1-\sum_i\frac{n_i}{N}\ln n_i+\frac{1}{N}\sum_in_i=\ln N-\sum_i\frac{n_i}{N}\ln n_i$

$=\sum_i\frac{n_i}{N}\ln N-\sum_i\frac{n_i}{N}\ln n_i=-\lim_{N\to \infty}\sum_i\frac{n_i}{N}\ln \frac{n_i}{N}=-\sum_ip_i\ln p_i$

微觀狀態（microstate）：箱子中物體的具體分配方案

宏觀狀態（macrostate）：總體的佔領數的分佈，表示爲比值 $\frac{n_i}{N}$ 。乘數 $W$ 稱爲宏觀狀態的權重

把箱子表述成離散隨機變量 $X$ 的狀態 $x_i$ ，其中 $p(X=x_i)=p_i$ 。
- 那麼隨機變量的熵爲
$H[p]=-\sum_ip(x_i)\ln p(x_i)$
- 熵的最大值：
  
  使用拉格朗日乘數法最大化
  $\tilde H=-\sum_ip(x_i)\ln p(x_i)+\lambda(\sum_ip(x_i)-1)$
  當全部的 $p(x_i)$ 都相等，且 $p(x_i)=\frac{1}{M}$ 時，熵取得最大值。其中 $M$ 是狀態 $x_i$ 的總數，此時 $H=\ln M$
  
  熵的二階導數爲
  $\frac{\partial ^2\tilde H}{\partial p(x_i)\partial p(x_i)}=-I_{ij}\frac{1}{p_i}$
  其中 $I_{ij}$ 是單位矩陣的元素
- 連續變量的機率分佈 $p(x)$
  
  把 $x$

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。