數據集:關係型數據庫中有不少表,表裏面有不少記錄,不少記錄就能夠認爲是數據集算法
屬性(特徵):一個表中有不少條記錄,每條記錄的表有不少屬性,如tb_stu(stu_id,stuname,stu_sex)s表中有3條屬性數據庫
屬性值:屬性的取值,如stu_id能夠等於1,2.3....n。stu_sex能夠爲男,也能夠爲女。機器學習
特徵向量:咱們能夠將屬性的組合投影到三維空間,用幾何和代數的工具來表示他們。如三個屬性,能夠頭影城三維空間。每一個屬性有不少取值,無論三個屬性取值如何組合,都會在這個三維空間中。其中三維空間的一個點,咱們稱爲特徵向量。ide
訓練:從所用的數據學的模型的過程稱爲學習,或訓練,如100個數據集,使用80個來訓練。工具
概括:數學概括法,當n=1,時,f(1)=.... 當n=2時,f(2)=.. 求出通項公式,從具體到通常性的規律學習
演繹:從基礎原理推演出具體情況,有通常推到出具體,共性===》個體。spa
假設空間:就是根據屬性的取值的組合,構成一個假設空間。色澤=,根蒂=,敲聲=,結果是好瓜數學
色澤有4中狀況,根蒂有4中,敲聲有4種,3中基本的,還有一種*構成4種,構成空間爲4*4*4+1(這個本身理解)=65it
假設:學得模型對應了關於數據的某種潛在的規律,稱爲假設。(一時不理解很正常,後續會講清楚)假設就是從假設空間中進行搜索與刪除和正例和反例不一致的假設,最終與得到訓練集一致的假設。這就是咱們學的結果。class
概括偏好:若咱們的算法喜歡儘量特殊的模型,則它會選擇好瓜<=>(色澤=*)^(根蒂=蜷縮)^(敲聲=濁響),但咱們的算法有通常的模型好瓜<=>(色澤=*)^(根蒂=蜷縮)^(敲聲=*),機器學習算法在學習過程當中對某種類型假設的偏好,稱爲概括偏好。
樣例(示例):訓練樣本包含結果信息如(色澤=青綠,根蒂=蜷縮,敲聲=濁響,結果是好瓜),擁有結果是好瓜,擁有了標記信息,這樣一個訓練數據樣本,就是樣例。通常用(xi,yi)來表示第i個樣本,
yi屬於Y(Y是全部標記集合,或稱爲輸出空間,標記空間)
預測:就是對訓練的建成模型,而後對沒有訓練的數據進行預測。輸入變量和輸出變量均爲連續變量的預測問題稱爲迴歸問題;輸出變量爲有限個離散變量的預測問題稱爲分類問題。
根據訓練數據是否擁有標記信息,學習的任務能夠大體分爲兩大類:監督學習和無監督學習。
分類和迴歸都是監督學習,都包含樣例。
聚類是後者的表明。
泛化:訓練模型適用於新樣本的能力稱爲泛化能力。