學習算法:機器學習所研究的主要內容,是關於在計算機上從數據中產生「模型」的算法,即「學習算法」。算法
學習算法的做用:1.基於提供的經驗數據產生模型;機器學習
2.面對新狀況時,模型可提供相應的判斷。函數
模型:泛指從數據中學得的結果。post
學習器:學習算法在給定數據和參數空間上的實例化。性能
數據集:一組記錄的集合。學習
示例/樣本/特徵向量:每條記錄(關於一個事件或對象的描述)或空間中的每個點(對應一個座標向量)。測試
屬性/特徵:反應事件或對象在某方面的表現或性質的事項。設計
屬性值:屬性上的取值。3d
屬性空間/樣本空間/輸入空間:屬性張成的空間。對象
維數:屬性的個數。
學習/訓練:從數據中學得模型的過程。
訓練數據:訓練過程當中使用的數據。
訓練樣本:每一個樣本。
訓練集:訓練樣本組成的集合。
假設:學習模型對應了關於數據的某種潛在的規律。
真相/真實:這種潛在規律自身。
學習過程就是爲了找出或逼近真相。
標記:關於示例結果的信息。
樣例:擁有了標記信息的示例。
標記空間:全部標記的集合。
測試:學得模型後,使用其進行預測的過程。
測試樣本:被預測的樣本。
聚類:將訓練集中的訓練樣本分紅若干組。
簇:每組稱爲一個「簇」,這些自動造成的「簇」可能對應一些潛在的概念劃分。
泛化:學得模型適用於新樣本的能力。
學習過程看做一個在全部假設組成的空間中進行的搜索的過程,搜索目標是找到與訓練集「匹配」的假設。
假設空間:機器學習中可能的函數構成的空間稱爲「假設空間」。
版本空間:一個與訓練集一致的「假設集合」。
概括偏好:機器學習算法在學習過程當中對某種類型假設的偏好。
「奧卡姆剃刀」原則:「如有多個假設與觀察一致,則選最簡單的那個。」
注意: 奧卡姆剃刀並不是惟一可行的原則;
奧克姆剃刀自己存在不一樣的詮釋。
「沒有免費的午飯」定理(NFL定理):總偏差與學習算法無關。
注意: 脫離具體問題,空泛的談論「什麼學習算法更好」,毫無心義。
P5 假設空間的規模問題
1. 某一屬性值不管取什麼都合適,咱們用通配符「*」來表示。
2. 世界上沒有,咱們用「∅」來表示。
書中例子爲西瓜,爲判斷西瓜的好壞,其屬性有三種,即:色澤、根蒂、敲聲。
這三種屬性分別有三、三、3種可能取值,但假設空間的規模倒是4×4×4+1=65。
這是由於,在假設空間中,屬性的「不管取什麼屬性值都合適」也是一種屬性值,而不是做爲單一屬性的3種可能取值的集合存在。
由於假設空間是機器學習中可能的函數構成的空間,「不管取什麼屬性值都合適」意味着這個函數與這一屬性無關。
例如,若是西瓜的三個屬性取值都是「不管取什麼屬性值都合適」,那麼不管什麼瓜,都是好瓜。而不是3×3×3=27個種類的瓜的集合,並不須要依次判斷,須要的判斷僅僅是——它是瓜。
因此其假設空間爲:
{青綠,烏黑,淺白,*}×{蜷縮,稍蜷,硬挺,*}×{濁響,清脆,沉悶,*}+1(沒有「好瓜」的定義)=65
1.1 表1.1中若只包含編號爲1和4的兩個樣例,試給出相應的版本空間。
如表1.1所示,好瓜和非好瓜的三個屬性的屬性值均不相同,故與訓練集一致的假設集合即版本空間以下圖所示:
圖1.1 版本空間
其取值則共有七種,其合取式爲:
(色澤=青綠)∧(根蒂= ∗ )∧(敲聲= ∗ )
(色澤= ∗ )∧(根蒂=蜷縮)∧(敲聲= ∗ )
(色澤= ∗ )∧(根蒂= ∗ )∧(敲聲=濁響)
(色澤=青綠)∧(根蒂=蜷縮)∧(敲聲= ∗ )
(色澤=青綠)∧(根蒂= ∗ )∧(敲聲=濁響)
(色澤= ∗ )∧(根蒂=蜷縮)∧(敲聲=濁響)
(色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=濁響)
1.2 與使用單個合取式來進行假設表示相比,使用「析合範式」將使得假設空間具備更強的表示能力。例如:
好瓜←→((色澤=*)∧(根蒂=蜷縮)∧(敲聲=*))∨((色澤=烏黑)∧(根蒂=*)∧(敲聲=沉悶))
會把「((色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=清脆))」以及「((色澤=烏黑)∧(根蒂=硬挺)∧(敲聲=沉悶))」都分類爲「好瓜」。
若使用最多包含k個合取式的析合範式來表達表1.1西瓜分類問題的假設空間,試估算共有多少種可能的假設。
計算此題,先要計算假設空間的規模,以前筆者一直被P5 中三種屬性的3種屬性值迷惑,覺得此表也應如此計算。
但實際上,此表的色澤屬性只有:1.青綠、2.烏黑 兩種屬性值,故其規模大小爲: 3×4×4+1=49種。
k的最大值爲49。
而後考慮問題。本題採用析合範式來提高假設空間,解答思路以下圖:
1.3 若數據包含噪聲,則假設空間中有可能不存在與全部訓練樣本都一致的假設。在此情形下,試設計一種概括偏好用於假設選擇。
1.4 本章1.4節在論述「沒有免費的午飯」定理時,默認使用了「分類錯誤率」做爲性能度量來對分類器進行評估。若換用其餘性能度量l,試證實沒有免費的午飯」定理仍成立。