機器學習總結之第一章緒論

【第1章 緒論】

〖1、知識點概括〗

1.1 引言

學習算法:機器學習所研究的主要內容,是關於在計算機上從數據中產生「模型」的算法,即「學習算法」。算法

學習算法的做用:1.基於提供的經驗數據產生模型機器學習

2.面對新狀況時,模型可提供相應的判斷。函數

模型:泛指從數據中學得的結果。post

學習器:學習算法在給定數據和參數空間上的實例化。性能

1.2 基本術語

要進行機器學習,先要有數據。

數據集:一組記錄的集合。學習

示例/樣本/特徵向量:每條記錄(關於一個事件或對象的描述)或空間中的每個點(對應一個座標向量)。測試

屬性/特徵:反應事件或對象在某方面的表現或性質的事項。設計

屬性值:屬性上的取值。3d

屬性空間/樣本空間/輸入空間:屬性張成的空間。對象

維數:屬性的個數。

模型須要從數據中學得。

學習/訓練:從數據中學得模型的過程。

訓練數據:訓練過程當中使用的數據。

訓練樣本:每一個樣本。

訓練集:訓練樣本組成的集合。

假設:學習模型對應了關於數據的某種潛在的規律。

真相/真實:這種潛在規律自身。

學習過程就是爲了找出或逼近真相。

得到訓練樣本的結果信息,才能創建「預測」的模型。

標記:關於示例結果的信息。

樣例:擁有了標記信息的示例。

標記空間:全部標記的集合。

 

測試:學得模型後,使用其進行預測的過程。

測試樣本:被預測的樣本。

聚類:將訓練集中的訓練樣本分紅若干組。

簇:每組稱爲一個「簇」,這些自動造成的「簇」可能對應一些潛在的概念劃分。

根據訓練數據是否擁有標記信息,學習任務可大體劃分爲兩類。

 

機器學習的目標是使學得的模型能更好地適用於「新樣本」。

泛化:學得模型適用於新樣本的能力。

 

1.3 假設空間

 

學習過程看做一個在全部假設組成的空間中進行的搜索的過程,搜索目標是找到與訓練集「匹配」的假設。

假設空間:機器學習中可能的函數構成的空間稱爲「假設空間」。

版本空間:一個與訓練集一致的「假設集合」。

 

1.4 概括偏好

概括偏好:機器學習算法在學習過程當中對某種類型假設的偏好。

任何一個有效的機器學習算法必有其概括偏好。

「奧卡姆剃刀」原則:「如有多個假設與觀察一致,則選最簡單的那個。」

注意: 奧卡姆剃刀並不是惟一可行的原則;

奧克姆剃刀自己存在不一樣的詮釋。

「沒有免費的午飯」定理(NFL定理):總偏差與學習算法無關。

注意: 脫離具體問題,空泛的談論「什麼學習算法更好」,毫無心義。

 

〖2、難點分析〗

P5 假設空間的規模問題

1. 某一屬性值不管取什麼都合適,咱們用通配符「*」來表示。

2. 世界上沒有,咱們用「∅」來表示。

書中例子爲西瓜,爲判斷西瓜的好壞,其屬性有三種,即:色澤、根蒂、敲聲。

這三種屬性分別有三、三、3種可能取值,但假設空間的規模倒是4×4×4+1=65。

這是由於,在假設空間中,屬性的「不管取什麼屬性值都合適」也是一種屬性值,而不是做爲單一屬性的3種可能取值的集合存在。

 

由於假設空間是機器學習中可能的函數構成的空間,「不管取什麼屬性值都合適」意味着這個函數與這一屬性無關。

 

例如,若是西瓜的三個屬性取值都是「不管取什麼屬性值都合適」,那麼不管什麼瓜,都是好瓜。而不是3×3×3=27個種類的瓜的集合,並不須要依次判斷,須要的判斷僅僅是——它是瓜。

 

因此其假設空間爲:

{青綠,烏黑,淺白,*}×{蜷縮,稍蜷,硬挺,*}×{濁響,清脆,沉悶,*}+1(沒有「好瓜」的定義)=65

 

〖3、習題探討〗

1.1 表1.1中若只包含編號爲1和4的兩個樣例,試給出相應的版本空間。

解:

 

 

如表1.1所示,好瓜和非好瓜的三個屬性的屬性值均不相同,故與訓練集一致的假設集合即版本空間以下圖所示:

圖1.1 版本空間

 

其取值則共有七種,其合取式爲:

(色澤=青綠)∧(根蒂= ∗ )∧(敲聲= ∗ )

(色澤= ∗ )∧(根蒂=蜷縮)∧(敲聲= ∗ )

(色澤= ∗ )∧(根蒂= ∗ )∧(敲聲=濁響)

(色澤=青綠)∧(根蒂=蜷縮)∧(敲聲= ∗ )

(色澤=青綠)∧(根蒂= ∗ )∧(敲聲=濁響)

(色澤= ∗ )∧(根蒂=蜷縮)∧(敲聲=濁響)

(色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=濁響)

 

1.2 與使用單個合取式來進行假設表示相比,使用「析合範式」將使得假設空間具備更強的表示能力。例如:

好瓜←→((色澤=*)∧(根蒂=蜷縮)∧(敲聲=*))∨((色澤=烏黑)∧(根蒂=*)∧(敲聲=沉悶))

會把「((色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=清脆))」以及「((色澤=烏黑)∧(根蒂=硬挺)∧(敲聲=沉悶))」都分類爲「好瓜」。

 

若使用最多包含k個合取式的析合範式來表達表1.1西瓜分類問題的假設空間,試估算共有多少種可能的假設。

解:

 

 

計算此題,先要計算假設空間的規模,以前筆者一直被P5 中三種屬性的3種屬性值迷惑,覺得此表也應如此計算。

 

但實際上,此表的色澤屬性只有:1.青綠、2.烏黑 兩種屬性值,故其規模大小爲: 3×4×4+1=49種。

k的最大值爲49。

 

而後考慮問題。本題採用析合範式來提高假設空間,解答思路以下圖:

這裏寫圖片描述

 

1.3 若數據包含噪聲,則假設空間中有可能不存在與全部訓練樣本都一致的假設。在此情形下,試設計一種概括偏好用於假設選擇。

解:

  • 最簡單的設計就是:訓練樣本一致特徵越多越好(一致性比例越高越好)爲概括偏好。
  • 另外,考慮概括偏好應儘可能與問題相匹配,這裏可以使概括偏好與噪聲分佈相匹配。

 

1.4 本章1.4節在論述「沒有免費的午飯」定理時,默認使用了「分類錯誤率」做爲性能度量來對分類器進行評估。若換用其餘性能度量l,試證實沒有免費的午飯」定理仍成立。

解:

易證實
相關文章
相關標籤/搜索