機器學習基本概念梳理

時間 2019-11-18

標籤機器學習基本概念梳理简体版

原文原文鏈接

1.1 基本術語

數據集（data set）：數據記錄的集合算法

示例/樣本（sample）：每條記錄，即對一個事件/對象的描述機器學習

屬性（attribute）/特徵（feature）：反映時間或對象在某方面的表現或性質的事項ide

屬性空間（attribute space）/樣本空間（sample space）/輸入空間：屬性張成的空間函數

因爲樣本空間中每一點對應於一個座標向量，所以一個示例也成爲一個特徵向量（feature vector）性能

學習（learning）/訓練（training）：從數據中學習模型的過程學習

訓練數據（training data）：訓練過程當中使用的數據測試

訓練集（training set）：訓練樣本組成的集合spa

假設（hypothesis）：學得的關於數據的某種潛在規律對象

真相/真實（ground-truth）：關於數據的某種潛在規律自身blog

標記空間（label space）/輸出空間：標記的集合

測試（testing）：學得模型後，使用其進行預測的過程

測試樣本（tesing sample）：被預測的樣本

根據預測的值的類型，學習任務能夠被劃分爲分類（classification），迴歸（regression），聚類（clustering），etc.

根據訓練數據是否有標記，學習任務可被劃分爲監督學習（supervised learning）與無監督學習（unsupervised learning）

泛化（generalization）：學得模型適用於新樣本的能力

獨立同分布（independent and identically distributed, i.i.d.）：樣本空間中全體樣本服從一個未知分佈（distribution）D，得到的每一個樣本都是獨立地從這個分佈上採樣得到

1.2 假設空間

能夠將學習的過程當作在全部假設（hypothesis）組成的空間中進行搜索的過程，搜索目標是找到與訓練集「匹配」（fit）的假設。假設的表示一旦肯定，假設空間的大小就肯定了。

假設空間的搜索策略：自頂向下、從通常到特殊、自底向上、從特殊到通常，etc.

現實問題中，可能有多個假設與訓練集一致，即存在一個與訓練集一致的「假設空間」，稱之爲「版本空間」（version space）。

1.3 概括偏好

概括偏好（inductive bias）：機器學習算法在學習過程當中對某種類型假設的偏好。

任何一個有效的機器學習算法必有其概括偏好，不然它將被假設空間中看似在訓練集上「等效」的假設所迷惑，而沒法產生肯定的學習結果。算法的概括偏好是否與問題自己匹配，大多數時候直接決定了算法是否取得好的性能。

不存在引導算法確立正確「偏好」的通常性的原則。事實上，對於一個學習算法ζ_a，若它在某些問題上比學習算法ζ_b好，則必然存在另外一些問題，使得在那裏ζ_b比ζ_a好。此結論能夠由以下討論得出：

假設樣本空間X和假設空間H都是離散的。令P(h|X, ζ_a)表明算法ζ_a基於訓練數據X產生假設h的機率，再令f表明咱們但願學習的真實目標函數。ζ_a的「訓練集外偏差」，即ζ_a在訓練集外的全部樣本上的偏差爲

其中是指示函數，若•爲真則取1，不然取值0。

考慮二分問題，且真實目標函數能夠是任何函數X→{0,1}，函數空間爲{0,1}^|X|。對全部可能的f，按均勻偏差求和，有

上式代表，總偏差與學習算法無關。對於任意兩個學習算法ζ_a和ζ_b，都有

這就是NFL定理（No Free LunchTheorem, Wolpert and Macready, 1995）。固然，其前提是全部「問題」出現的概率相同，但實際情形並不是如此。不少時候，咱們只關注本身正在試圖解決的問題。NFL的寓意，是讓咱們意識到，脫離具體問題，空泛談論「什麼學習算法好」毫無心義。而針對具體問題，學習算法自身的概括偏好與問題是否匹配，每每會起決定性做用。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。