一.機器學習(machine learning)算法
1.它致力於研究如何經過計算的手段,利用經驗來改善系統自身的性能機器學習
2.研究的主要內容是學習算法(learning algorithm)(在計算機上從數據中產生模型(model)或者說學習器(learner)的算法)性能
3.簡而言之,機器學習:根據已有的經驗(舊的數據),生成一個包含參數的學習模型,要求面對新的狀況時(新的數據),該學習模型能表現良好學習
4.假設用 P 來評估計算機程序在某任務類 T 上的性能,若一個程序經過利用經驗 E 在 T 中任務上得到了性能改善,則咱們就說關於 T 和 P ,該程序對 E 進行了學習 測試
二.基本術語spa
1.關於數據對象
(1)特徵向量(feature vector)、樣本(sample)、示例(instance)、記錄:對於一個事件或對象的描述事件
(2)數據集:記錄的集合rem
(3)特徵(feature)、屬性(attribute):反映事件或對象在某方面的表現或性質的事項it
(4)屬性空間、樣本空間、輸入空間:屬性張成的空間
(5)例:D={(色澤=青綠,敲聲=清脆),(色澤=淺白,根蒂=蜷縮)}表示一個關於西瓜的數據集,其中有兩個樣本,有三個屬性,屬性空間是以三個屬性(色澤,根蒂,敲聲)爲三個座標軸張成的三圍空間
(6)標記(label):關於示例結果的信息,
(7)樣例(example):擁有標記信息的示例
(8)輸出空間、標記空間(label space):全部標記張成的空間
(9)例:D={((色澤=青綠,敲聲=清脆),好瓜),((色澤=淺白,根蒂=蜷縮),壞瓜)}表示一個關於西瓜的數據集,其中有兩個樣例,有三個屬性,有兩種標記,這兩個標記的集合也被稱爲標記空間
2.關於訓練:根據訓練數據學習算法
(1)學習(learning)、訓練(training):從數據中學的模型的過程,經過執行某個學習算法來完成,訓練時對應有訓練集,訓練數據,訓練樣本
(2)假設(hypothesis):學的模型對應了關於數據的某種潛在規律
(3)真相、真實(ground-truth):潛在規律自身
3.關於預測:根據模型,測試新數據
(1)測試(testing):學的模型後,使用其進行預測的過程
(2)測試樣本(testing sample)、測試示例、測試例:被預測的樣本
三.機器學習的分類
1.監督學習(supervised learning):訓練數據有標記信息
(1)分類:標記信息呈現離散狀態
(2)迴歸:標記信息呈現的是連續值
2.無監督學習(unsupervised learning):訓練數據無標記信息,給定一些數據,自動找出數據的結構
(1)聚類:自動對數據進行分類,手動給定類的標記
3.強化學習,推薦系統等
四.機器學習的目標
1.使學得的模型能很好的適用於新樣本,而不單單在訓練樣本上工做的很好
2.泛化(generalization)(從特殊到通常):學得模型的適用於新樣本的能力
3.通常來講,訓練樣本越多,獲得的信息越多,越有可能獲得強泛化能力的樣本
五.假設空間
1.概括學習:從具體的事實歸結出通常性規律
2.機器學習是從樣本中學習,顯然是概括學習
3.假設空間:全部假設組成的空間,一般來講特別大,好比三個屬性分別有3,3,4種可能取值,則面臨的假設空間規模爲:4*4*5+1=81,(由於要加上∅)
4.版本空間:可能有多個假設與訓練集一致,則存在一個與訓練集一致的‘假設集合‘,稱之爲版本空間
六.概括偏好
1.概括偏好(inductive bias):機器學習算法在學習過程當中對某種類型假設的偏好
2.好比:存在多個模型能反映訓練樣本,可是他們對於新的樣本卻又不一樣的輸出,表示不一樣模型對不一樣假設的偏好
3.奧卡姆剃刀原則(Occam's razor):如有多個假設與觀察一致,則選最簡單的那個
4.‘沒有免費的午飯’定理(No Free Lunch Theorem)(NFL):在全部問題同等重要的狀況下,不管學習算法怎樣,他們的指望性能相同
5.總結:要結合具體的問題,對比學習算法的性能,由於在某些問題上表現良好的學習算法,在其餘問題上可能表現很糟糕
七.總結
1.問題描述:根據已有數據集,判斷未知數據,
步驟
(1)得到訓練數據集
(2)選取學習算法
(3)用學習算法來學習訓練數據集,不斷改進參數,得到最終模型
(4)對於給定的未知輸入,在最終模型上獲得輸出