機器學習基礎-假設空間、樣本空間與概括偏置

在進入正題前先說一說函數,在陶哲軒所著的實分析集合論章節中定義:函數是從定義域A到值域B的映射,即對於A中的每一個值B中都有惟一的值對應。假設定義域A中元素個數爲X,值域B中元素個數爲Y,那麼產生函數個數爲個。假設A={1,2} ,B={3,4}則可能產生的函數有:機器學習

一、1->3,2->3函數

二、1->3,2->4學習

三、1->4,2->4blog

四、1->4,2->3基礎

這樣4個。若是說定義域和值域的元素不少甚至是實數集,那麼可能產生的函數集合大小就是天文數字甚至是無窮大了!引用

機器學習中的本質任務是根據提供的數據擬合出一個模型進行預測,這個模型本質上就是一個函數,擬合模型的過程實際也是尋找函數的過程,所以假設空間實際上就是模型空間本質上是函數集合。im

樣本空間是指可以擬合訓練數據的模型集合(函數集合),以上例爲基礎,假設給定x=1,y=3,那麼可以擬合該數據的有1和2兩個函數,顯然樣本空間因爲訓練數據的引入是包含於假設空間的,可是樣本空間的大小一樣可能無窮大,爲了說明該問題引用周志華的西瓜書插圖:數據

如今將定義域和值域放到實數集上,可以擬合圖中6個數據點的曲線理論上有無窮個,但咱們必須選擇其中一個,根據奧卡姆剃刀原則(若是有多個假設與觀察一致選擇最簡單的那個),由此咱們天然認爲平滑的A曲線比B曲線更加簡單而選擇A,這個過程叫作概括偏置。img

相關文章
相關標籤/搜索