機器學習總結之第一章緒論

時間 2019-11-24

標籤機器學習總結第一章緒論简体版

原文原文鏈接

【第1章緒論】

〖1、知識點概括〗

1.1 引言

學習算法：機器學習所研究的主要內容，是關於在計算機上從數據中產生「模型」的算法，即「學習算法」。算法

學習算法的做用：1.基於提供的經驗數據產生模型；機器學習

2.面對新狀況時，模型可提供相應的判斷。函數

模型：泛指從數據中學得的結果。post

學習器：學習算法在給定數據和參數空間上的實例化。性能

1.2 基本術語

要進行機器學習，先要有數據。

數據集：一組記錄的集合。學習

示例/樣本/特徵向量：每條記錄（關於一個事件或對象的描述）或空間中的每個點（對應一個座標向量）。測試

屬性/特徵：反應事件或對象在某方面的表現或性質的事項。設計

屬性值：屬性上的取值。3d

屬性空間/樣本空間/輸入空間：屬性張成的空間。對象

維數：屬性的個數。

模型須要從數據中學得。

學習/訓練：從數據中學得模型的過程。

訓練數據：訓練過程當中使用的數據。

訓練樣本：每一個樣本。

訓練集：訓練樣本組成的集合。

假設：學習模型對應了關於數據的某種潛在的規律。

真相/真實：這種潛在規律自身。

學習過程就是爲了找出或逼近真相。

得到訓練樣本的結果信息，才能創建「預測」的模型。

標記：關於示例結果的信息。

樣例：擁有了標記信息的示例。

標記空間：全部標記的集合。

測試：學得模型後，使用其進行預測的過程。

測試樣本：被預測的樣本。

聚類：將訓練集中的訓練樣本分紅若干組。

簇：每組稱爲一個「簇」，這些自動造成的「簇」可能對應一些潛在的概念劃分。

根據訓練數據是否擁有標記信息，學習任務可大體劃分爲兩類。

機器學習的目標是使學得的模型能更好地適用於「新樣本」。

泛化：學得模型適用於新樣本的能力。

1.3 假設空間

學習過程看做一個在全部假設組成的空間中進行的搜索的過程，搜索目標是找到與訓練集「匹配」的假設。

假設空間：機器學習中可能的函數構成的空間稱爲「假設空間」。

版本空間：一個與訓練集一致的「假設集合」。

1.4 概括偏好

概括偏好：機器學習算法在學習過程當中對某種類型假設的偏好。

任何一個有效的機器學習算法必有其概括偏好。

「奧卡姆剃刀」原則：「如有多個假設與觀察一致，則選最簡單的那個。」

注意：奧卡姆剃刀並不是惟一可行的原則；

奧克姆剃刀自己存在不一樣的詮釋。

「沒有免費的午飯」定理（NFL定理）：總偏差與學習算法無關。

注意：脫離具體問題，空泛的談論「什麼學習算法更好」，毫無心義。

〖2、難點分析〗

P5 假設空間的規模問題

1. 某一屬性值不管取什麼都合適，咱們用通配符「*」來表示。

2. 世界上沒有，咱們用「∅」來表示。

書中例子爲西瓜，爲判斷西瓜的好壞，其屬性有三種，即：色澤、根蒂、敲聲。

這三種屬性分別有三、三、3種可能取值，但假設空間的規模倒是4×4×4+1=65。

這是由於，在假設空間中，屬性的「不管取什麼屬性值都合適」也是一種屬性值，而不是做爲單一屬性的3種可能取值的集合存在。

由於假設空間是機器學習中可能的函數構成的空間，「不管取什麼屬性值都合適」意味着這個函數與這一屬性無關。

例如，若是西瓜的三個屬性取值都是「不管取什麼屬性值都合適」，那麼不管什麼瓜，都是好瓜。而不是3×3×3=27個種類的瓜的集合，並不須要依次判斷，須要的判斷僅僅是——它是瓜。

因此其假設空間爲：

{青綠，烏黑，淺白，*}×{蜷縮，稍蜷，硬挺，*}×{濁響，清脆，沉悶，*}+1（沒有「好瓜」的定義）=65

〖3、習題探討〗

1.1 表1.1中若只包含編號爲1和4的兩個樣例，試給出相應的版本空間。

解：

如表1.1所示，好瓜和非好瓜的三個屬性的屬性值均不相同，故與訓練集一致的假設集合即版本空間以下圖所示：

圖1.1 版本空間

其取值則共有七種，其合取式爲：

（色澤＝青綠）∧（根蒂＝ ∗ ）∧（敲聲＝ ∗ ）

（色澤＝ ∗ ）∧（根蒂＝蜷縮）∧（敲聲＝ ∗ ）

（色澤＝ ∗ ）∧（根蒂＝ ∗ ）∧（敲聲＝濁響）

（色澤＝青綠）∧（根蒂＝蜷縮）∧（敲聲＝ ∗ ）

（色澤＝青綠）∧（根蒂＝ ∗ ）∧（敲聲＝濁響）

（色澤＝ ∗ ）∧（根蒂＝蜷縮）∧（敲聲＝濁響）

（色澤＝青綠）∧（根蒂＝蜷縮）∧（敲聲＝濁響）

1.2 與使用單個合取式來進行假設表示相比，使用「析合範式」將使得假設空間具備更強的表示能力。例如：

好瓜←→（(色澤=*)∧(根蒂=蜷縮)∧(敲聲=*)）∨（(色澤=烏黑)∧(根蒂=*)∧(敲聲=沉悶)）

會把「（(色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=清脆)）」以及「（(色澤=烏黑)∧(根蒂=硬挺)∧(敲聲=沉悶)）」都分類爲「好瓜」。

若使用最多包含k個合取式的析合範式來表達表1.1西瓜分類問題的假設空間，試估算共有多少種可能的假設。

解：

計算此題，先要計算假設空間的規模，以前筆者一直被P5 中三種屬性的3種屬性值迷惑，覺得此表也應如此計算。

但實際上，此表的色澤屬性只有：1.青綠、2.烏黑兩種屬性值，故其規模大小爲： 3×4×4+1=49種。

k的最大值爲49。

而後考慮問題。本題採用析合範式來提高假設空間，解答思路以下圖：

1.3 若數據包含噪聲，則假設空間中有可能不存在與全部訓練樣本都一致的假設。在此情形下，試設計一種概括偏好用於假設選擇。

解：

最簡單的設計就是：訓練樣本一致特徵越多越好（一致性比例越高越好）爲概括偏好。
另外，考慮概括偏好應儘可能與問題相匹配，這裏可以使概括偏好與噪聲分佈相匹配。

1.4 本章1.4節在論述「沒有免費的午飯」定理時，默認使用了「分類錯誤率」做爲性能度量來對分類器進行評估。若換用其餘性能度量l,試證實沒有免費的午飯」定理仍成立。

解：

易證實

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。