機器學習筆記 | 1.2 基本術語

 

數據集 (data set): 數據的集合算法

示例(instance)、 樣本(sample): 數據集中的每條記錄,用於描述某一事件或對象,就是示例學習

特徵(feature)、屬性(attribute):反應事件或對象在某一方面的表現或性質的事項,其值爲特徵值(屬性值)測試

屬性空間、樣本空間或輸入空間: 屬性張成的空間對象

 

咱們把一個示例稱爲一個特徵向量(feature vector)blog

 

D={X1,X2,X3...Xm} 表示包含m個示例的數據集事件

 

樣本x有d個屬性,則d稱爲樣本x的'維數'io

 

學習(learing)、訓練(training) : 從數據中學的模型的過程,這個過程一般是使用某個算法來完成的。class

 

訓練集(training set): 訓練過程當中使用的數據,其中每個樣本稱爲訓練樣本(training sample)test

 

學得模型對應了關於數據潛在的某種規律,稱爲假設(hypothesis),這種潛在規律自身,稱爲真相或真實im

 

標記(label):關於實例的結果信息,擁有標記信息的示例,稱爲樣例(example)

 

分類(classifcation):預測的是離散值

迴歸(regression):預測的是連續值

 

涉及兩個類別的分類,就是二分類(binary classifcation)

涉及多個類別的分類,就是多分類(multi-class classifcation)

 

測試(testing): 學得模型後,使用其進行預測的過程

測試樣本(testing sample):被用來預測的樣本

 

 

 泛化(generalization)能力:學得模型適用於新樣本的能力

相關文章
相關標籤/搜索