本章重點: 簡單的論證了即便有Noise,機器依然能夠學習,VC Dimension對泛化依然起做用;介紹了一些評價Model效果的Error Measurement方法。算法
一論證即便有Noisy,VC Dimension依然有效;機器學習
下圖展現了主要思想,之前的數據集是肯定的(Deterministic),如今加了Noisy變成了分佈函數了,即對每一個一x,y出現的機率是P(y|x)。能夠這麼理解,機率表示的是對事件肯定的程度,之前肯定性的數據集是函數
P(y|x) = 1, for y = f(x) 學習
p(y|x) = 0, for y != f(x), 優化
加入了Noisy,便不是了,有必定的機率例如0.7是應該出現的值,0.3則爲犯錯的機率,即出現了不應出現的值。這即是加入Noisy的模型,只不過增長了機率分佈(其實之前也是,只不過是1和0罷了),只要y是p(y|x)取值的,就能夠認爲之前證實機器能夠學習的方法依然奏效,VC Dimension有限便可推斷Ein和Eout一致。spa
二關於Errorblog
對於Train完以後的error,有pointwise,out of sample以及classification(0/1)三種。事件
PointWise error實際上就是按數據集每一個點比較並計算平均,像Linear Regression裏面的最小平方和的cost function就是這類。即下圖所示。rem
實際上,機器學習的Cost Function即來自於這些error,也就是算法裏面的迭代的目標函數,經過優化使得Error(Ein)不斷變小。io
對於這些error,實際上和使用場景關心很大,咱們知道Model的判斷結果大體有4種:
TP:Model預測是對的,實際也是對的,這個是好事;
FP:Model預測是對的,但實際是錯的,這是壞事,即false accpet;
FN:Model預測是錯的,但實際是對的,這個是壞事,即false reject;
TN:Model預測是錯的,實際也是錯的,這個是好事。
兩種錯誤,FP和FN,這二者在不一樣情形嚴重狀況不一樣,因此須要具體狀況具體分析。通常錯誤函數的選擇採起下面的策略,Plausible或者Friendly。