1)獲得一個有限的訓練數據集合
2)肯定包含全部可能的模型的假設空間,即學習模型的集合
3)肯定模型選擇的準則,即學習的策略
4)實現求解最優模型的算法,即學習的算法
5)經過學習方法選擇最優模型
6)利用學習的最優模型對新數據進行預測或分析算法
1)指從標註數據中學習預測模型的機器學習問題。標註數據表示輸入輸出的對應關係,預測模型對給定的輸入產生相應的輸出。監督學習的本質是學習輸入到輸出的映射的統計規律網絡
1)\(x=\left ( x^{(1)}, x^{(2)},x^{(3)},x^{(4)}...x^{(n)}\right )^{T}\)機器學習
1)\(x_{i}=\left ( x_{i}^{(1)}, x_{i}^{(2)},x_{i}^{(3)},x_{i}^{(4)}...x_{i}^{(n)}\right )^{T}\)函數
1)\(T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right )...\left ( x_{N},y_{N} \right ) \right \}\)性能
1)監督學習假設輸入與輸出的隨機變量X和Y遵循聯合機率分佈P(X, Y),P(X, Y)表示分佈函數,或分佈密度函數。訓練數據與測試數據被看做是依聯合機率分佈P(X, Y)獨立同分布產生的。統計學習假設數據存在必定的統計規律,X和Y具備聯合機率分佈就是監督學習關於數據的基術假設學習
1)輸入空間到輸出空間的映射,模型能夠表示爲P(y|x)或y=f(x)測試
1)
在預測過程當中,預測系統對於給定的輸入\(x_{N+1}\)由模型\(y_{N+1} = \underset{y}{argmax}\hat{P}\left ( y|x_{N+1} \right )\)或\(y_{N+1} = \hat{f}\left ( x_{N+1} \right )\)給出相應的輸出\(y_{N+1}\)優化
1)指從無標註數據中學習預測模型的機器學習問題。無標註數據是天然獲得的數據,預測模型表示數據的類別、轉換或機率。無監督學習的本質是學習數據中的統計規律或潛在結構。能夠用於對已有的數據進行分析或者對將來的數據進行預測
每個輸出是對輸入的分析結果,由輸入的類別、轉換或機率表達,模型能夠實現對數據的聚類、降維或機率估計spa
1)函數\(z=g_{\theta }(x)\)(硬聚類:一個樣本只能屬於一個類)、條件機率分佈\(P_{\theta }(z|x)\)(軟聚類:一個樣本能夠屬於多個類)或條件機率分佈\(P_{\theta }(x|z)\)(機率模型估計)orm
1)指智能系統在與環境的連續互動中學習最優行爲策略的機器學習問題。假設智能系統與環境的互動基於馬爾可夫決策過程(Marlcov decision process)智能系統能觀測到的是與環境互動獲得的數據序列。強化學習的本質是學習最優的序貫決策。
1)
目標是長期累積的獎勵最大化
1)
1)貝爾曼方程:
\(V_{*}\left ( s \right )= \underset{a}{\max}\underset{{s}',r}{\sum} p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{*}\left ( {s}' \right ) \right ]\)
貝爾曼方程中狀態s的價值V(s)由兩部分組成:
a.採起動做a後帶來的獎勵r
b.採起動做a後到達的新狀態的價值V(s′)
2)策略迭代:
a.初始化: 隨機選擇一個策略做爲初始值。 好比「無論什麼狀態, 一概朝下走」, 即P( A = 朝下走 | St=s) = 1, P( A = 其餘 | St=s) = 0
b.進行策略評估: 根據當前的策略計算 \(V_{\pi }\left ( s \right )= E_{\pi }\left ( r+\gamma V_{\pi }\left ( {s}' \right )|S_{t}=s \right )\)。
c.進行策略提高: 計算當前狀態的最優動做\(\underset{a}{\max}\left \{ q_{\pi }\left ( s,a \right ) \right \}\),更新策略\(\pi _{s}= \underset{a}{argmax}\underset{{s}',r}{\sum}p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{\pi }\left ( {s}' \right ) \right ]\)
d.不停地重複策略評估和策略提高, 直到策略再也不變化爲止
1)指利用標註數據和未標註數據學習預測模型的機器學習問題
1)指機器不斷主動給出實例讓教師進行標註,而後利用標註數據學習預測模型的機器學習問題
1)監督學習中機率模型取條件機率分佈形式P(y|x)且是生成模型,無監督學習中機率模型取機率分佈形式P(z|x)或P(x|z)且是判別模型
2)決策樹,樸素貝葉斯,隱馬爾可夫模型,條件隨機場,機率潛在語義分析,潛在狄利克雷分配,高斯混合模型,邏輯斯諦迴歸
1)監督學習中非機率模型取函數形式y=f(x),無監督學習中非機率模型取函數形式z=g(x)
2)感知機,支持向量機,K近鄰,AdaBoost,K均值,潛在語義分析,神經網絡,邏輯斯諦迴歸
1)貝葉斯公式:
後驗機率:\(P\left ( \theta |D \right )=\frac{P\left ( D|\theta \right )\cdot P\left ( \theta \right )}{P\left ( D \right )}\)
極大似然估計:\(P\left ( D|\theta \right )=\prod_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
先驗機率:\(P\left ( \theta \right )\)
機率密度函數:\(f\left ( \theta \right ) = -\sum_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
因爲樣本機率\(P\left ( D \right )\)固定,因此後驗機率可化爲求:
2)L1正則化:
假設\(\theta\)知足拉普拉斯分佈\(P\left ( \theta \right )=\frac{1}{2\lambda }e\tfrac{-\left | \theta_{i} \right |}{\lambda }\)則①可化爲:
L1範式:\(\left \| \theta \right \|_{1} = \left | \theta _{1} \right |+\left | \theta _{2} \right |+...+\left | \theta _{n} \right |\)
3)L2正則化:
假設\(\theta\)知足正態分佈(均值爲0,方差爲\(\sigma ^{2}\))\(P\left ( \theta \right )=\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-\theta _{i}^{2}}{2\sigma ^{2}}}\)則①可化爲:
L2範式:\(\left \| \theta \right \|_{2} =\sqrt{\theta _{1}^{2}+\theta _{2}^{2}+...+\theta _{n}^{2}}\)
4)L一、L2正則化防止過擬合:
正則化之因此可以下降過擬合的緣由在於,正則化是結構風險最小化的一種策略實現
給loss function加上正則化項,能使得新獲得的優化目標函數h = f+normal,須要在f和normal中作一個權衡(trade-off),若是還像原來只優化f的狀況下,那可能獲得一組解比較複雜,使得正則項normal比較大,那麼h就不是最優的,所以能夠看出加正則項能讓解更加簡單,符合奧卡姆剃刀理論,同時也比較符合在誤差和方差(方差表示模型的複雜度)分析中,經過下降模型複雜度,獲得更小的泛化偏差,下降過擬合程度
L1正則化和L2正則化:
L1正則化就是在loss function後邊所加正則項爲L1範數,加上L1範數容易獲得稀疏解(0比較多)。L2正則化就是loss function後邊所加正則項爲L2範數的平方,加上L2正則相比於L1正則來講,獲得的解比較平滑(不是稀疏),可是一樣可以保證解中接近於0(但不是等於0,因此相對平滑)的維度比較多,下降模型的複雜度
1)定義:度量模型一次的好壞
2)分類:
1)定義:度量平均意義下模型預測的好壞
1)
1)
不等式(1.32)左端R(f)是泛化偏差,右端即爲泛化偏差上界。在泛化偏差上界中,第一項時候訓練偏差,訓練偏差越小,泛化偏差也越小。第二項 \(\varepsilon \left ( d,N,\delta \right )\) 是N的單調遞減函數,當N趨於無窮時趨於0。同時它也是 \(\sqrt{logd}\) 階的函數,假設空間F包含的函數越多,其值越大。
Hoeffding不等式:
可知\(\hat{R}\left ( f \right ) = E\bar{x},R\left ( f \right ) = \bar{x}\)
(1.38)的推導:
生成模型估計的是聯合機率分佈,特色是從統計的角度表示數據的分佈狀況,能反映同類數據自己的類似度,不關心各種的邊界在哪,生成模型能夠獲得判別模型,判別模型得不到生成模型
1)因爲統計了數據的分佈狀況,因此其實際帶的信息要比判別模型豐富,對於研究單類問題來講也比判別模型靈活性強
2)模型能夠經過增量學習獲得(增量學習是指一個學習系統能不斷地重新樣本中學習新的知識,並能保存大部分之前已經學習到的知識)
3)收斂速度更快,當樣本容量增長的時,生成模型能夠更快的收斂於真實模型
4)隱變量存在時,也可使用
1)學習和計算過程比較複雜,因爲學習了更多的樣本信息,因此計算量大,若是咱們只是作分類,就浪費了這部分的計算量
2)準確率較差
3)每每須要對特徵進行假設,好比樸素貝葉斯中須要假設特徵間獨立同分布,因此若是所選特徵不知足這個條件,將極大影響生成式模型的性能
判別模型估計的是條件機率分佈,不能反映訓練數據自己的特性,目的在於尋找不一樣類別之間的最優分界面
1)因爲關注的是數據的邊界,因此能清晰的分辨出多類或某一類與其餘類之間的差別,因此準確率相對較高
2)計算量較小,須要的樣本數量也較小
1)不能反映訓練數據自己的特性
2)收斂速度較慢
對二分類: | 預測值: | 0 | 1 |
---|---|---|---|
真實 | 0 | TN | FN |
值 | 1 | FP | TP |
準確率:\(\frac{TP+TN}{D}\)
1)\(P=\frac{TP}{TP+FP}\) 須要更多的正類
1)\(P=\frac{TP}{TP+FN}\) 須要更多的負類正負樣本不均衡使用
1)\(\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}\Rightarrow F_{1}=\frac{2PR}{P+R}=\frac{2TP}{2TP+FP+FN}\) 平衡精確率召回率
2)N分類:\(< F_{1}> =\frac{1}{n}\sum_{i=1}^{n}F_{i}=\frac{1}{n}\sum_{i=1}^{n}\frac{2P_{i}R_{i}}{P_{i}+R_{i}}\)
預測類做爲正類其餘類做爲負類則化二分類問題