在「機器學習基礎-假設空間、樣本空間與概括偏置」中提到了概括偏置其實是一種模型選擇策略,儘管咱們認爲A模型更簡單可能具備更好的泛化能力(更貼切實際問題對新數據的預測更準)而選擇了A,可是實際狀況中極可能會出現B模型比A更好的狀況如圖所示:(注:本文實際是對周志華西瓜書的部分總結)機器學習
黑點是訓練數據,空心點是新數據,在(b)圖中B模型比A模型更好。學習
也就是說在無數個模型中均可能會出現比A模型與實際數據更符合的狀況(西瓜書中引入了NFL(沒有免費的午飯定理)來着重說明具體問題具體分析,這個具體問題其實是指數據分佈要與實際問題一致而不是指應用場景一致),換句話說哪一個模型與實際狀況更加符合咱們就選擇那個模型。測試
如今的問題是咱們如何判斷哪一個模型與實際狀況更加符合,所以引入了模型的評估和選擇。.net
在評估和選擇時,雖然使用了N種方法,但本質上仍是將數據分紅了訓練集和測試集分別進行模型訓練和模型驗證,咱們理想中的狀況是訓練集與測試集要同時與實際數據的機率分佈一致,只有這樣咱們才能經過技術手段儘可能選擇到那個最優的模型,那N種方法直觀上模型評估選擇法,本質上是儘可能保證與實際數據的機率分佈一致!blog