數據集 (data set): 數據的集合算法
示例(instance)、 樣本(sample): 數據集中的每條記錄,用於描述某一事件或對象,就是示例學習
特徵(feature)、屬性(attribute):反應事件或對象在某一方面的表現或性質的事項,其值爲特徵值(屬性值)測試
屬性空間、樣本空間或輸入空間: 屬性張成的空間對象
咱們把一個示例稱爲一個特徵向量(feature vector)blog
D={X1,X2,X3...Xm} 表示包含m個示例的數據集事件
樣本x有d個屬性,則d稱爲樣本x的'維數'io
學習(learing)、訓練(training) : 從數據中學的模型的過程,這個過程一般是使用某個算法來完成的。class
訓練集(training set): 訓練過程當中使用的數據,其中每個樣本稱爲訓練樣本(training sample)test
學得模型對應了關於數據潛在的某種規律,稱爲假設(hypothesis),這種潛在規律自身,稱爲真相或真實im
標記(label):關於實例的結果信息,擁有標記信息的示例,稱爲樣例(example)
分類(classifcation):預測的是離散值
迴歸(regression):預測的是連續值
涉及兩個類別的分類,就是二分類(binary classifcation)
涉及多個類別的分類,就是多分類(multi-class classifcation)
測試(testing): 學得模型後,使用其進行預測的過程
測試樣本(testing sample):被用來預測的樣本
泛化(generalization)能力:學得模型適用於新樣本的能力