機器學習緒論
基本術語
基礎
- 模型:泛指從數據中學得的結果
- 數據集 data set:一組記錄的集合
- 示例 instance/樣本 sample:關於一個事件或對象的描述
- 屬性 attribute/特徵 feature:反映事件或對象在某方面的表現或性質的事項
- 屬性值 attribute value:屬性上的取值
- 屬性空間 attribute space/樣本空間 sample space:屬性張成的空間即 \(n\) 個特徵描述出的 \(n\) 維空間
- 特徵向量 feature vector:每一個示例在空間中的座標向量
- \(D={\{\vec{x_1},\vec{x_2},\cdots,\vec{x_m}\}}\):包含 m 個樣本的數據集
- \(\vec{x_i}=(x_{i1};x_{i2};\cdots;x_{id})\):\(d\) 維樣本空間 \({\chi}\) 中的一個向量,\({\vec{x_i}}{\in}{\chi}\)
- 輸入空間:一個樣本全部特徵的集合
- \(x_{ij}\):\(\vec{x_i}\)在第 \(j\) 個屬性上的取值,後期可能會用 \(\vec{X}\) 展現
- \(d\):\({\vec{x_i}}\) 的「維數 dimensionlity」
- 學習 learning/訓練 training:從數據中學得模型的過程
- 訓練數據 training data:訓練過程當中使用的數據
- 訓練樣本 training sample:訓練中的每一個樣本
- 假設 hypothesis:學習模型對應了關於數據某種潛在的規律
- 真相/真實 ground-truth:潛在規律自身
- 學習器 learner:模型
- 預測 prediction:得到訓練樣本的「結果」信息
- 標記 label:樣本結果的信息
- 樣例 example:擁有標記信息的樣本
- \((x_i,y_i)\):第 \(i\) 個樣例,\(y_i\in{\vec{Y}}\) 是示例 \(x_i\) 的標記,\(\vec{Y}\) 是全部標記的集合
- 標記空間 label space/輸出空間:全部標記的集合
監督學習 supervised learning
分類 classification:預測結果是離散值的學習任務算法
迴歸 regression:預測結果是連續值的學習任務機器學習
二分類 binary calssification:涉及兩個類別ide
正類 positive class 和 反類 negative class:「二分類」中的兩個類別性能
多分類 multi-class classification:涉及多個類別學習
預測任務:對訓練集 \(\{(\vec{x_1},y1),(\vec{x_2},y_2),\cdots,(\vec{x_m},y_m)\}\) 進行學習,創建一個從輸入空間 \(\vec{X}\) 到 輸出空間 \(\vec{Y}\) 的映射 \(f:\vec{X}\rightarrow\vec{Y}\),一般令 \(\vec{Y}=\{-1,+1\}\) 或 \(\{0,1\}\);對於多分類任務,\(|\vec{Y}|\gt2\);對迴歸任務,\(|\vec{Y}|=R\),\(R\) 爲實數集測試
測試 testing:對學得模型進行預測的過程spa
測試樣本 testing sample:被預測的樣本,例如學得 \(f\) 後,對測試例 \(\vec{x}\) ,可獲得其預測標記 \(y=f(x)\)對象
無監督學習 unsupervised learning
- 聚類 clustering:將訓練集中的西瓜分紅若干組
- 簇 cluster:「聚類」中的每一組。每一簇均可能對應一些潛在的概念劃分而且這些概念咱們事先是不知道的
進階
- 泛化 generalization:學得模型適用於新樣本的能力
- 分佈 distribution \({{D}}\) :一般假設樣本空間中全體服從一個未知「分佈」
- 獨立同分布 independent and identically distributed \(i.i.d.\):每一個樣本都是獨立地從這個分佈上採樣得到的
假設空間
- 科學推理的兩大基本手段:概括 induction 與 演繹 deduction
- 概括:從特殊到通常的「泛化 generalization」過程,即從具體的事實歸結出通常性規律
- 演繹:從通常到特殊的「特化 specialization」過程,即從基礎原理推演出具體情況
- 概括學習 inductive learning:從樣例中學習
- 廣義概括學習:至關於從樣例中學習
- 狹義概括學習:從訓練數據中學得概念,所以也稱爲「概念學習」或「概念造成」
- 布爾概念學習:對「是」「不是」這樣的可表示爲0/1布爾值的目標概念的學習
- 學習過程:在全部假設組成的空間中進行搜索的過程,搜索目標是找到與訓練集「匹配 fit」的假設,
- 假設空間:能將訓練集中的樣本判斷爲正確的假設的集合
- 版本空間 version space:一個與訓練集一致的「假設集合」
概括偏好
「版本空間」中可能有多個假設對應訓練集中的某個樣本,可是多個假設可能有不一樣的輸出,那麼應該採用哪個模型(或假設)呢?事件
- 概括偏好 inductive bias:算法在學習過程當中對某種類型假設的偏好
- 若是沒有概括偏好:學得模型預測時時而告訴咱們它是好的,時而告訴咱們它是很差的
- 奧卡姆剃刀 Ocam’s razor:如有多個假設與觀察一致,則選最簡單的那個
- 「沒有免費的午飯」定理 No Free Lunch Theorem:不管學習算法 \(a\) 多聰明、學習算法 \(b\) 多笨拙,它們的指望性能都會相同。
- NFL 定理前提:全部「問題」出現的機會相同、或全部問題同等重要
- NFL 定理最重要的寓意:空泛的談「什麼學習算法更好毫無心義」,由於若考慮全部潛在的問題,則學習算法都同樣好
- 噪聲:出現不該該出現的數據,例如相同的屬性得出不同的分類
機器學習研究的主要內容:在計算機中從數據中產生「模型 model」的算法,即「學習算法 learning algorithm」。ci
計算機科學研究「算法」;機器學習研究「學習算法」。
大多數時候算法的概括偏好是否與問題自己匹配,直接決定了算法可否取得好的性能。