數據集(data set):數據記錄的集合算法
示例/樣本(sample):每條記錄,即對一個事件/對象的描述機器學習
屬性(attribute)/特徵(feature):反映時間或對象在某方面的表現或性質的事項ide
屬性空間(attribute space)/樣本空間(sample space)/輸入空間:屬性張成的空間函數
因爲樣本空間中每一點對應於一個座標向量,所以一個示例也成爲一個特徵向量(feature vector)性能
學習(learning)/訓練(training):從數據中學習模型的過程學習
訓練數據(training data):訓練過程當中使用的數據測試
訓練集(training set):訓練樣本組成的集合spa
假設(hypothesis):學得的關於數據的某種潛在規律對象
真相/真實(ground-truth):關於數據的某種潛在規律自身blog
標記空間(label space)/輸出空間:標記的集合
測試(testing):學得模型後,使用其進行預測的過程
測試樣本(tesing sample):被預測的樣本
根據預測的值的類型,學習任務能夠被劃分爲分類(classification),迴歸(regression),聚類(clustering),etc.
根據訓練數據是否有標記,學習任務可被劃分爲監督學習(supervised learning)與無監督學習(unsupervised learning)
泛化(generalization):學得模型適用於新樣本的能力
獨立同分布(independent and identically distributed, i.i.d.):樣本空間中全體樣本服從一個未知分佈(distribution)D,得到的每一個樣本都是獨立地從這個分佈上採樣得到
能夠將學習的過程當作在全部假設(hypothesis)組成的空間中進行搜索的過程,搜索目標是找到與訓練集「匹配」(fit)的假設。假設的表示一旦肯定,假設空間的大小就肯定了。
假設空間的搜索策略:自頂向下、從通常到特殊、自底向上、從特殊到通常,etc.
現實問題中,可能有多個假設與訓練集一致,即存在一個與訓練集一致的「假設空間」,稱之爲「版本空間」(version space)。
概括偏好(inductive bias):機器學習算法在學習過程當中對某種類型假設的偏好。
任何一個有效的機器學習算法必有其概括偏好,不然它將被假設空間中看似在訓練集上「等效」的假設所迷惑,而沒法產生肯定的學習結果。算法的概括偏好是否與問題自己匹配,大多數時候直接決定了算法是否取得好的性能。
不存在引導算法確立正確「偏好」的通常性的原則。事實上,對於一個學習算法ζa,若它在某些問題上比學習算法ζb好,則必然存在另外一些問題,使得在那裏ζb比ζa好。此結論能夠由以下討論得出:
假設樣本空間X和假設空間H都是離散的。令P(h|X, ζa)表明算法ζa基於訓練數據X產生假設h的機率,再令f表明咱們但願學習的真實目標函數。ζa的「訓練集外偏差」,即ζa在訓練集外的全部樣本上的偏差爲
其中是指示函數,若•爲真則取1,不然取值0。
考慮二分問題,且真實目標函數能夠是任何函數X→{0,1},函數空間爲{0,1}|X|。對全部可能的f,按均勻偏差求和,有
上式代表,總偏差與學習算法無關。對於任意兩個學習算法ζa和ζb,都有
這就是NFL定理(No Free LunchTheorem, Wolpert and Macready, 1995)。固然,其前提是全部「問題」出現的概率相同,但實際情形並不是如此。不少時候,咱們只關注本身正在試圖解決的問題。NFL的寓意,是讓咱們意識到,脫離具體問題,空泛談論「什麼學習算法好」毫無心義。而針對具體問題,學習算法自身的概括偏好與問題是否匹配,每每會起決定性做用。