Coursera臺大機器學習課程筆記7 -- Noise and Error

本章重點:  簡單的論證了即便有Noise,機器依然能夠學習,VC Dimension對泛化依然起做用;介紹了一些評價Model效果的Error Measurement方法。算法

論證即便有NoisyVC Dimension依然有效;機器學習

下圖展現了主要思想,之前的數據集是肯定的(Deterministic),如今加了Noisy變成了分佈函數了,即對每一個一xy出現的機率是P(y|x)。能夠這麼理解,機率表示的是對事件肯定的程度,之前肯定性的數據集是函數

P(y|x) = 1, for y = f(x) 學習

p(y|x) = 0, for y != f(x), 優化

加入了Noisy,便不是了,有必定的機率例如0.7是應該出現的值,0.3則爲犯錯的機率,即出現了不應出現的值。這即是加入Noisy的模型,只不過增長了機率分佈(其實之前也是,只不過是10罷了),只要yp(y|x)取值的,就能夠認爲之前證實機器能夠學習的方法依然奏效,VC Dimension有限便可推斷EinEout一致。spa

關於Errorblog

對於Train完以後的error,有pointwiseout of sample以及classification0/1)三種。事件

PointWise error實際上就是按數據集每一個點比較並計算平均,像Linear Regression裏面的最小平方和的cost function就是這類。即下圖所示。rem

 

實際上,機器學習的Cost Function即來自於這些error,也就是算法裏面的迭代的目標函數,經過優化使得ErrorEin)不斷變小。io

對於這些error,實際上和使用場景關心很大,咱們知道Model的判斷結果大體有4種:

TPModel預測是對的,實際也是對的,這個是好事;

FPModel預測是對的,但實際是錯的,這是壞事,即false accpet

FNModel預測是錯的,但實際是對的,這個是壞事,即false reject

TNModel預測是錯的,實際也是錯的,這個是好事。

兩種錯誤,FPFN,這二者在不一樣情形嚴重狀況不一樣,因此須要具體狀況具體分析。通常錯誤函數的選擇採起下面的策略,Plausible或者Friendly

相關文章
相關標籤/搜索