統計學習方法第二版第一章統計學及監督學習概論筆記

時間 2020-10-23

原文原文鏈接

1. 統計學習

1.1 統計學習的方法

基於數據構建機率統計模型從而對數據進行預測與分析。統計學習由監督學習、無監督學習、強化學習等組成

1.2 實現統計學習的方法的步驟

1）獲得一個有限的訓練數據集合
2）肯定包含全部可能的模型的假設空間，即學習模型的集合
3）肯定模型選擇的準則，即學習的策略
4）實現求解最優模型的算法，即學習的算法
5）經過學習方法選擇最優模型
6）利用學習的最優模型對新數據進行預測或分析算法

2. 統計學習的分類

2.1 基本分類

2.1.1 監督學習

2.1.1.1 定義：

1）指從標註數據中學習預測模型的機器學習問題。標註數據表示輸入輸出的對應關係，預測模型對給定的輸入產生相應的輸出。監督學習的本質是學習輸入到輸出的映射的統計規律網絡

2.1.1.2 特徵向量：

1）\(x=\left ( x^{(1)}, x^{(2)},x^{(3)},x^{(4)}...x^{(n)}\right )^{T}\)機器學習

2.1.1.3 第i個變量：

1）\(x_{i}=\left ( x_{i}^{(1)}, x_{i}^{(2)},x_{i}^{(3)},x_{i}^{(4)}...x_{i}^{(n)}\right )^{T}\)函數

2.1.1.4 訓練集：

1）\(T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right )...\left ( x_{N},y_{N} \right ) \right \}\)性能

2.1.1.5 聯合機率分佈：

1）監督學習假設輸入與輸出的隨機變量X和Y遵循聯合機率分佈P(X, Y)，P(X, Y)表示分佈函數，或分佈密度函數。訓練數據與測試數據被看做是依聯合機率分佈P(X, Y)獨立同分布產生的。統計學習假設數據存在必定的統計規律，X和Y具備聯合機率分佈就是監督學習關於數據的基術假設學習

2.1.1.6 假設空間：

1）輸入空間到輸出空間的映射，模型能夠表示爲P(y|x)或y=f(x)測試

2.1.1.7 問題形式化：

1）
在預測過程當中，預測系統對於給定的輸入\(x_{N+1}\)由模型\(y_{N+1} = \underset{y}{argmax}\hat{P}\left ( y|x_{N+1} \right )\)或\(y_{N+1} = \hat{f}\left ( x_{N+1} \right )\)給出相應的輸出\(y_{N+1}\)優化

2.1.2 無監督學習

2.1.2.1 定義：

1）指從無標註數據中學習預測模型的機器學習問題。無標註數據是天然獲得的數據，預測模型表示數據的類別、轉換或機率。無監督學習的本質是學習數據中的統計規律或潛在結構。能夠用於對已有的數據進行分析或者對將來的數據進行預測

每個輸出是對輸入的分析結果，由輸入的類別、轉換或機率表達，模型能夠實現對數據的聚類、降維或機率估計spa

2.1.2.2 無監督學習的模型：

1）函數\(z=g_{\theta }(x)\)（硬聚類：一個樣本只能屬於一個類）、條件機率分佈\(P_{\theta }(z|x)\)（軟聚類：一個樣本能夠屬於多個類）或條件機率分佈\(P_{\theta }(x|z)\)（機率模型估計）orm

2.1.3 強化學習

2.1.3.1 定義：

1）指智能系統在與環境的連續互動中學習最優行爲策略的機器學習問題。假設智能系統與環境的互動基於馬爾可夫決策過程(Marlcov decision process)智能系統能觀測到的是與環境互動獲得的數據序列。強化學習的本質是學習最優的序貫決策。

2.1.3.2 智能系統與環境的互動：

1）
目標是長期累積的獎勵最大化

2.1.3.3 馬可夫決策過程：

1）

2.1.3.4 馬可夫決策過程求解：

1）貝爾曼方程：
\(V_{*}\left ( s \right )= \underset{a}{\max}\underset{{s}',r}{\sum} p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{*}\left ( {s}' \right ) \right ]\)
貝爾曼方程中狀態s的價值V(s)由兩部分組成：
a.採起動做a後帶來的獎勵r
b.採起動做a後到達的新狀態的價值V(s′)
2）策略迭代：
a.初始化：隨機選擇一個策略做爲初始值。好比「無論什麼狀態，一概朝下走」，即P（ A = 朝下走 | St=s） = 1， P（ A = 其餘 | St=s） = 0
b.進行策略評估：根據當前的策略計算 \(V_{\pi }\left ( s \right )= E_{\pi }\left ( r+\gamma V_{\pi }\left ( {s}' \right )|S_{t}=s \right )\)。
c.進行策略提高：計算當前狀態的最優動做\(\underset{a}{\max}\left \{ q_{\pi }\left ( s,a \right ) \right \}\)，更新策略\(\pi _{s}= \underset{a}{argmax}\underset{{s}',r}{\sum}p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{\pi }\left ( {s}' \right ) \right ]\)
d.不停地重複策略評估和策略提高，直到策略再也不變化爲止

2.1.4 半監督學習與主動學習

2.1.4.1 半監督學習：

1）指利用標註數據和未標註數據學習預測模型的機器學習問題

2.1.4.2 主動學習：

1）指機器不斷主動給出實例讓教師進行標註，而後利用標註數據學習預測模型的機器學習問題

2.2 模型分類

2.2.1 機率模型與非機率模型

2.2.1.1 機率模型：

1）監督學習中機率模型取條件機率分佈形式P(y|x)且是生成模型,無監督學習中機率模型取機率分佈形式P(z|x)或P(x|z)且是判別模型
2）決策樹，樸素貝葉斯，隱馬爾可夫模型，條件隨機場，機率潛在語義分析，潛在狄利克雷分配，高斯混合模型，邏輯斯諦迴歸

2.2.1.2 非機率模型：

1）監督學習中非機率模型取函數形式y=f(x),無監督學習中非機率模型取函數形式z=g(x)
2）感知機，支持向量機，K近鄰，AdaBoost，K均值，潛在語義分析，神經網絡，邏輯斯諦迴歸

2.2.2 線性模型與非線性模型

統計學習模型，特別是非機率模型若是函數是線性函數則爲線性模型反之是非線性模型，感知機、線性支持向量機、K近鄰、K均值、潛在語義分析是線性模型，核函數支持向量機、AdaBoost、神經網絡是非線性模型

2.3 算法分類

2.3.1 在線學習：

每次接受一個樣本，進行預測，以後學習模型並重復該操做的機器學習

2.3.2 批量學習：

一次接受全部數據，學習模型以後進行預測

2.4 技巧分類

2.4.1 貝葉斯學習

2.4.1.1 最大後驗機率統計：

1）貝葉斯公式：
後驗機率：\(P\left ( \theta |D \right )=\frac{P\left ( D|\theta \right )\cdot P\left ( \theta \right )}{P\left ( D \right )}\)
極大似然估計：\(P\left ( D|\theta \right )=\prod_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
先驗機率：\(P\left ( \theta \right )\)
機率密度函數：\(f\left ( \theta \right ) = -\sum_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
因爲樣本機率\(P\left ( D \right )\)固定，因此後驗機率可化爲求：

\[\begin{aligned} &maxP\left ( D|\theta \right )\cdot P\left ( \theta \right )\\ &取對數\\ \Rightarrow&maxlogP\left ( \theta \right )+logP\left ( D|\theta \right )\\ &取負\\ \Rightarrow&min-logP\left ( \theta \right )-logP\left ( D|\theta \right )\\ \Rightarrow&min-\sum_{i=1}^{n}logP\left ( x_{i}|\theta \right )-\sum_{i=1}^{m}logP\left ( \theta \right )\\ \Rightarrow&minf\left ( \theta \right )-\sum_{i=1}^{m}logP\left ( \theta \right )① \end{aligned} \]

2）L1正則化：
假設\(\theta\)知足拉普拉斯分佈\(P\left ( \theta \right )=\frac{1}{2\lambda }e\tfrac{-\left | \theta_{i} \right |}{\lambda }\)則①可化爲：

\[\begin{aligned} &\underset{\theta}{argmin}f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }e\tfrac{-\left | \theta_{i} \right |}{\lambda }\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }-\sum_{i=1}^{m}loge\tfrac{-\left | \theta_{i} \right |}{\lambda }\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }+\frac{1}{\lambda }\sum_{i=1}^{m}\left | \theta _{i} \right |\\ &令\lambda=1\\ \Rightarrow&\underset{\theta}{argmin}f\left ( \theta \right )+\lambda\left \| \theta _{i} \right \|_{1} \end{aligned} \]

L1範式：\(\left \| \theta \right \|_{1} = \left | \theta _{1} \right |+\left | \theta _{2} \right |+...+\left | \theta _{n} \right |\)
3）L2正則化：
假設\(\theta\)知足正態分佈（均值爲0，方差爲\(\sigma ^{2}\)）\(P\left ( \theta \right )=\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-\theta _{i}^{2}}{2\sigma ^{2}}}\)則①可化爲：

\[\begin{aligned} &\underset{\theta}{argmin}f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-\theta _{i}^{2}}{2\sigma ^{2}}}\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }+\frac{1}{2\sigma ^{2}}\sum_{i=1}^{m}\theta _{i}^{2}\\ &令\sigma ^{2}=1\\ \Rightarrow&\underset{\theta}{argmin}f\left ( \theta \right )+\frac{\lambda }{2}\left \| \theta _{i} \right \|_{2}^{2} \end{aligned} \]

L2範式：\(\left \| \theta \right \|_{2} =\sqrt{\theta _{1}^{2}+\theta _{2}^{2}+...+\theta _{n}^{2}}\)
4）L一、L2正則化防止過擬合：

正則化之因此可以下降過擬合的緣由在於，正則化是結構風險最小化的一種策略實現
給loss function加上正則化項，能使得新獲得的優化目標函數h = f+normal，須要在f和normal中作一個權衡（trade-off），若是還像原來只優化f的狀況下，那可能獲得一組解比較複雜，使得正則項normal比較大，那麼h就不是最優的，所以能夠看出加正則項能讓解更加簡單，符合奧卡姆剃刀理論，同時也比較符合在誤差和方差（方差表示模型的複雜度）分析中，經過下降模型複雜度，獲得更小的泛化偏差，下降過擬合程度

L1正則化和L2正則化：
L1正則化就是在loss function後邊所加正則項爲L1範數，加上L1範數容易獲得稀疏解（0比較多）。L2正則化就是loss function後邊所加正則項爲L2範數的平方，加上L2正則相比於L1正則來講，獲得的解比較平滑（不是稀疏），可是一樣可以保證解中接近於0（但不是等於0，因此相對平滑）的維度比較多，下降模型的複雜度

2.4.2 核方法

使用核函數表示和學習非線性模型的一種機器學習方法，將線性模型擴展到非線性模型，應用更普遍

3. 統計學習方法三要素

3.1 模型

3.2 策略

3.2.1 損失函數和風險函數

3.2.1.1 損失函數：

1）定義：度量模型一次的好壞
2）分類：

3.2.1.2 風險函數：

1）定義：度量平均意義下模型預測的好壞

3.2.2 經驗風險最小化和結構風險最小化

3.2.2.1 經驗風險最小化：

1）

3.2.2.2 結構風險最小化：

1）

3.3 算法

算法是指學習模型的具體計算方法。統計學習基於訓練數據集，根據學習策略，從假設空間中選擇最優模型，最後須要考慮用什麼樣的計算方法求解最優模型（Keras）

4. 模型評估和模型選擇

4.1 訓練偏差與測試偏差

4.1.1 訓練偏差

4.1.2 測試偏差

4.2 過擬合與模型選擇

4.2.1 過擬合

對於訓練數據擬合較好，精度較高，損失函數較小
對於測試數據擬合較差，精度較低，損失函數較大
數據分佈相對簡單，噪聲較多，機器學習模型複雜度較高

4.2.2 模型選擇

選擇複雜度合適的模型達到是測試偏差最小的目的

5. 正則化與交叉驗證

5.1 正則化

見2.4.1.1

5.2 交叉驗證

5.2.1 簡單交叉驗證

將數據集按必定比例分爲訓練集和測試集，在各類條件下訓練獲得模型，用測試集評價模型的測試偏差，選出偏差最小的模型

5.2.2 S折交叉驗證

第1步，將數據等分到s份
第2步，下列步驟重複s次
（1）每一次迭代中留存其中一份數據。第一次迭代中留存第1份，第二次留存第2份，其他依此類推，第i次留存第i份
（2）用其餘s-1份數據的信息做爲訓練數據，訓練分類器（第一次迭代中利用從第2份到第s份的信息進行訓練分類器）
（3）利用留存的數據做爲測試數據，來測試分類器並保存測試結果。
第3步，上述步驟完成後，從s個分類器中，選擇最好的一個最爲分類模型【如：用經驗風險最小進行模型選擇】

5.2.3 留一交叉驗證

留一法就是每次只留下一個樣本作測試集，其它樣本作訓練集，若是有k個樣本，則須要訓練k次，測試k次
留一發計算最繁瑣，但樣本利用率最高。適合於小樣本的狀況

6. 泛化能力

6.1 泛化偏差

6.2 泛化偏差上界

6.2.1 定義

6.2.2 推導

不等式（1.32）左端R（f）是泛化偏差，右端即爲泛化偏差上界。在泛化偏差上界中，第一項時候訓練偏差，訓練偏差越小，泛化偏差也越小。第二項 \(\varepsilon \left ( d,N,\delta \right )\) 是N的單調遞減函數，當N趨於無窮時趨於0。同時它也是 \(\sqrt{logd}\) 階的函數，假設空間F包含的函數越多，其值越大。
Hoeffding不等式:

可知\(\hat{R}\left ( f \right ) = E\bar{x}，R\left ( f \right ) = \bar{x}\)

（1.38）的推導：

\[\begin{aligned} &\delta =de^{-2N\varepsilon ^{2}}\\ \Rightarrow&\frac{\delta }{d}=e^{-2N\varepsilon ^{2}}\\ \Rightarrow&\frac{d}{\delta }=e^{2N\varepsilon ^{2}}\\ \Rightarrow&log\frac{d}{\delta } = loge^{2N\varepsilon ^{2}}\\ \Rightarrow&\frac{1}{2N}\left ( logd+log\frac{1}{\delta } \right ) = \varepsilon ^{2}\\ \Rightarrow&\sqrt{\frac{1}{2N}\left ( logd+log\frac{1}{\delta } \right )} = \varepsilon \end{aligned} \]

7. 生成模型與判別模型

7.1 生成模型

7.1.1 特色

生成模型估計的是聯合機率分佈，特色是從統計的角度表示數據的分佈狀況，能反映同類數據自己的類似度，不關心各種的邊界在哪，生成模型能夠獲得判別模型，判別模型得不到生成模型

7.1.2 優缺點

7.1.2.1 優勢：

1）因爲統計了數據的分佈狀況，因此其實際帶的信息要比判別模型豐富，對於研究單類問題來講也比判別模型靈活性強
2）模型能夠經過增量學習獲得（增量學習是指一個學習系統能不斷地重新樣本中學習新的知識，並能保存大部分之前已經學習到的知識）
3）收斂速度更快，當樣本容量增長的時，生成模型能夠更快的收斂於真實模型
4）隱變量存在時，也可使用

7.1.2.2 缺點：

1）學習和計算過程比較複雜，因爲學習了更多的樣本信息，因此計算量大，若是咱們只是作分類，就浪費了這部分的計算量
2）準確率較差
3）每每須要對特徵進行假設，好比樸素貝葉斯中須要假設特徵間獨立同分布，因此若是所選特徵不知足這個條件，將極大影響生成式模型的性能

7.2 判別模型

7.2.1 特色

判別模型估計的是條件機率分佈，不能反映訓練數據自己的特性，目的在於尋找不一樣類別之間的最優分界面

7.2.2 優缺點

7.2.2.1 優勢：

1）因爲關注的是數據的邊界，因此能清晰的分辨出多類或某一類與其餘類之間的差別，因此準確率相對較高
2）計算量較小，須要的樣本數量也較小

7.2.2.2 缺點：

1）不能反映訓練數據自己的特性
2）收斂速度較慢

8. 監督學習的應用

8.1 分類問題

8.1.1 定義

輸出變量Y取有限個離散值的預測問題

8.1.2 精確率、召回率、混淆矩陣和\(F_{1}\)Score

8.1.2.1 混淆矩陣：

對二分類：	預測值：	0	1
真實	0	TN	FN
值	1	FP	TP

準確率：\(\frac{TP+TN}{D}\)

8.1.2.2 精確率：

1）\(P=\frac{TP}{TP+FP}\) 須要更多的正類

8.1.2.3 召回率：

1）\(P=\frac{TP}{TP+FN}\) 須要更多的負類正負樣本不均衡使用

8.1.2.4 \(F_{1}\)Score：

1）\(\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}\Rightarrow F_{1}=\frac{2PR}{P+R}=\frac{2TP}{2TP+FP+FN}\) 平衡精確率召回率
2）N分類：\(< F_{1}> =\frac{1}{n}\sum_{i=1}^{n}F_{i}=\frac{1}{n}\sum_{i=1}^{n}\frac{2P_{i}R_{i}}{P_{i}+R_{i}}\)
預測類做爲正類其餘類做爲負類則化二分類問題