過擬合的形象描述(轉自知乎)

 

做者:sheenapunk
連接:https://www.zhihu.com/question/32246256/answer/55467528
來源:知乎

一個overfitted模型記住太多training data的細節從而下降了generalization的能力。學習

舉個栗子,給機器一堆人類的照片,告訴它性別,讓它學習看照片區分男女。哇,機器好棒哦,一會兒就能正確區分80%的照片的性別了!但是你以爲不夠,怎麼能容忍20%的錯誤率呢,啪啪啪鍵盤敲下去,讓機器給我接着學。
機器不怎麼聰明,但是記憶力和觀察力是很強的!因此你一直push它的話,它會把每張照片每一個像素的數值都記住的,這對每張照片都是獨一無二的,再記住它的性別,就能100%區分出你給他的全部照片里人的性別了。it

但是咱們的目的不是讓它成功區分這一堆照片里人的性別,而是讓它看見新的不知道性別的人的照片時,能夠成功預測性別。記住每一個點的像素有個毛用?你會發現這個機器判斷新的照片時表現不好。io

這就是爲何要把training data切一小份(好比說10%)出來作validation,用剩下90%的data去train,而後用這10%檢查一下train好的model,看看錶現怎麼樣,防止over training。Cross validation也是這個意思,把data切10份,每次用一份作validation,作10次,能用到全部的training data。
相關文章
相關標籤/搜索