機器學習之初步概念

基本概念

機器學習的前提是數據,咱們把數據的集合稱爲數據集'data set',每條記錄是一個樣本(sample),每一個樣本有若干個屬性(attribute)or特徵(feature),對應的是其屬性值(attribute value),屬性組成的空間稱做屬性空間(attribute space),所以每一個sample能夠被稱做一個特徵向量(feature vector).屬性個數稱爲樣本的維數。
從數據中學習模型的過程被稱爲學習(learning)或訓練(traning),訓練時使用的數據稱爲訓練集。咱們還須要訓練樣本的「結果」信息:標記"label",擁有了標記信息的"sample",被稱做「樣例」(example)。全部標記的集合被稱做「標記空間」(label space)或輸出空間。
對於預測離散值問題,稱做「分類」(classification),若是預測離散值,稱做「迴歸」(regression)。
學得模型後,使用其進行預測的過程稱爲「測試」(testing),被預測的樣本稱爲預測樣本(testing sample)
根據訓練數據是否含有標記信息,學習任務能夠被劃分爲兩大類監督學習(supervised learning)無監督學習(unsupervised learning),分類和迴歸是前者表明,聚類是後者表明。
學得模型適用於新樣本的能力,稱爲泛化(generalization)能力,具備強泛化能力的模型能很好的適用於整個樣本空間。
獨立同分布:一般假設樣本空間中全體樣本服從一個未知分佈(distribution)D,我咱們獲取的每一個樣本都是獨立的從這個分佈上採樣得到的。機器學習

模型評估和選擇

學習器的實際預測輸出與樣本的真實輸出之間的差別稱爲「偏差(error)」,學習器在訓練集上的偏差稱爲訓練偏差(training error)or經驗偏差(empirical error),在新樣本上的偏差稱爲泛化偏差(generalization error)
過擬合:學習器把訓練集學得太好了,極可能把訓練樣本的一些特色當作了全部潛在樣本都會具備的一些性質,致使泛化性能降低,稱爲過擬合(overfitting),相對的是欠擬合(underfitting)性能

參考書目:機器學習學習

相關文章
相關標籤/搜索