機器學習基礎基本術語

時間 2019-11-07

標籤機器學習基礎基本術語简体版

原文原文鏈接

機器學習緒論

基本術語

基礎

模型：泛指從數據中學得的結果
數據集 data set：一組記錄的集合
示例 instance/樣本 sample：關於一個事件或對象的描述
屬性 attribute/特徵 feature：反映事件或對象在某方面的表現或性質的事項
屬性值 attribute value：屬性上的取值
屬性空間 attribute space/樣本空間 sample space：屬性張成的空間即 \(n\) 個特徵描述出的 \(n\) 維空間
特徵向量 feature vector：每一個示例在空間中的座標向量
\(D={\{\vec{x_1},\vec{x_2},\cdots,\vec{x_m}\}}\)：包含 m 個樣本的數據集
\(\vec{x_i}=(x_{i1};x_{i2};\cdots;x_{id})\)：\(d\) 維樣本空間 \({\chi}\) 中的一個向量，\({\vec{x_i}}{\in}{\chi}\)
輸入空間：一個樣本全部特徵的集合
\(x_{ij}\)：\(\vec{x_i}\)在第 \(j\) 個屬性上的取值，後期可能會用 \(\vec{X}\) 展現
\(d\)：\({\vec{x_i}}\) 的「維數 dimensionlity」
學習 learning/訓練 training：從數據中學得模型的過程
訓練數據 training data：訓練過程當中使用的數據
訓練樣本 training sample：訓練中的每一個樣本
假設 hypothesis：學習模型對應了關於數據某種潛在的規律
真相/真實 ground-truth：潛在規律自身
學習器 learner：模型
預測 prediction：得到訓練樣本的「結果」信息
標記 label：樣本結果的信息
樣例 example：擁有標記信息的樣本
\((x_i,y_i)\)：第 \(i\) 個樣例，\(y_i\in{\vec{Y}}\) 是示例 \(x_i\) 的標記，\(\vec{Y}\) 是全部標記的集合
標記空間 label space/輸出空間：全部標記的集合

監督學習 supervised learning

分類 classification：預測結果是離散值的學習任務算法
迴歸 regression：預測結果是連續值的學習任務機器學習
二分類 binary calssification：涉及兩個類別ide
正類 positive class 和反類 negative class：「二分類」中的兩個類別性能
多分類 multi-class classification：涉及多個類別學習
預測任務：對訓練集 \(\{(\vec{x_1},y1),(\vec{x_2},y_2),\cdots,(\vec{x_m},y_m)\}\) 進行學習，創建一個從輸入空間 \(\vec{X}\) 到輸出空間 \(\vec{Y}\) 的映射 \(f:\vec{X}\rightarrow\vec{Y}\)，一般令 \(\vec{Y}=\{-1,+1\}\) 或 \(\{0,1\}\)；對於多分類任務，\(|\vec{Y}|\gt2\)；對迴歸任務，\(|\vec{Y}|=R\)，\(R\) 爲實數集測試
測試 testing：對學得模型進行預測的過程spa
測試樣本 testing sample：被預測的樣本，例如學得 \(f\) 後，對測試例 \(\vec{x}\) ，可獲得其預測標記 \(y=f(x)\)對象