周志華《機器學習》版本空間

初步理解:
1,數據輸入模型後會造成一個假設空間(包含全部可能輸入的樣本)。
2,而後經過 訓練數據,抽取 那些和訓練數據 特徵相匹配的假設,就獲得了版本空間。版本空間就是訓練後的模型。
 
3,若是預測的 數據A 是版本空間裏沒有匹配到,那麼就會返回false。
4,若是數據A是true,可是模型預測錯了呢? 那麼就把數據A 打上true的標籤 放到模型裏進行訓練,更新版本空間。
 
轉自:https://www.zhihu.com/question/40237283/answer/92414386
 
版本空間定義:
版本空間(version space)是概念學習中與已知數據集一致的全部假設(hypothesis)的子集集合。
對於二維空間中的「矩形」假設(上圖),綠色加號表明正類樣本,紅色小圈表明負類樣本。 GB 是最大泛化正假設邊界(maximally General positive hypothesis Boundary), SB 是最大精確正假設邊界(maximally Specific positive hypothesis Boundary). GB與SB所圍成的區域中的矩形即爲版本空間中的假設,也即GB與SB圍成的區域就是版本空間。
在一些須要對假設的泛化能力排序的情形下,就能夠經過GB與SB這兩個上下界來表示版本空間。在學習的過程當中,學習算法就能夠只在GB、SB這兩個表明集合上操做。


表1.1的訓練數據集對應的假設空間應該以下:
1 色澤=*,根蒂=*,敲聲=*
2 色澤=青綠,根蒂=*,敲聲=*
3 色澤=烏黑,根蒂=*,敲聲=*
4 色澤=*,根蒂=蜷縮,敲聲=*
5 色澤=*,根蒂=硬挺,敲聲=*
6 色澤=*,根蒂=稍蜷,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
8 色澤=*,根蒂=*,敲聲=清脆
9 色澤=*,根蒂=*,敲聲=沉悶
10 色澤=青綠,根蒂=蜷縮,敲聲=*
11 色澤=青綠,根蒂=硬挺,敲聲=*
12 色澤=青綠,根蒂=稍蜷,敲聲=*
13 色澤=烏黑,根蒂=蜷縮,敲聲=*
14 色澤=烏黑,根蒂=硬挺,敲聲=*
15 色澤=烏黑,根蒂=稍蜷,敲聲=*
16 色澤=青綠,根蒂=*,敲聲=濁響
17 色澤=青綠,根蒂=*,敲聲=清脆
18 色澤=青綠,根蒂=*,敲聲=沉悶
19 色澤=烏黑,根蒂=*,敲聲=濁響
20 色澤=烏黑,根蒂=*,敲聲=清脆
21 色澤=烏黑,根蒂=*,敲聲=沉悶
22 色澤=*,根蒂=蜷縮,敲聲=濁響
23 色澤=*,根蒂=蜷縮,敲聲=清脆
24 色澤=*,根蒂=蜷縮,敲聲=沉悶
25 色澤=*,根蒂=硬挺,敲聲=濁響
26 色澤=*,根蒂=硬挺,敲聲=清脆
27 色澤=*,根蒂=硬挺,敲聲=沉悶
28 色澤=*,根蒂=稍蜷,敲聲=濁響
29 色澤=*,根蒂=稍蜷,敲聲=清脆
30 色澤=*,根蒂=稍蜷,敲聲=沉悶
31 色澤=青綠,根蒂=蜷縮,敲聲=濁響
32 色澤=青綠,根蒂=蜷縮,敲聲=清脆
33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶
34 色澤=青綠,根蒂=硬挺,敲聲=濁響
35 色澤=青綠,根蒂=硬挺,敲聲=清脆
36 色澤=青綠,根蒂=硬挺,敲聲=沉悶
37 色澤=青綠,根蒂=稍蜷,敲聲=濁響
38 色澤=青綠,根蒂=稍蜷,敲聲=清脆
39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶
40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響
41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆
42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
43 色澤=烏黑,根蒂=硬挺,敲聲=濁響
44 色澤=烏黑,根蒂=硬挺,敲聲=清脆
45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶
46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響
47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆
48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
49 Ø算法

圖1.1下面的那段話描述了學習的過程:
搜索過程當中能夠不斷刪除與正例不一致的假設、和(或)與反例一致的假設。最終將會得到與訓練集一致(即對全部訓練樣本可以進行正確判斷)的假設,這就是咱們學得的結果。

按照上述過程進行學習:
(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)
能夠刪除假設空間中的三、五、六、八、九、11-1五、17-2一、23-30、32-49
(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)
能夠刪除剩餘假設空間中的二、十、1六、31
(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)
能夠刪除剩餘假設空間中的1
(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)
剩餘假設空間中無可刪除的假設學習

學習事後剩餘的假設爲
4 色澤=*,根蒂=蜷縮,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
22 色澤=*,根蒂=蜷縮,敲聲=濁響
這就是最後的「假設集合」,也就是「版本空間」。
相關文章
相關標籤/搜索