機器學習系列(一)--術語篇

時間 2019-11-12

標籤機器學習系列術語简体版

原文原文鏈接

機器學習的術語：算法

機器學習正是這樣一門學科，它致力於研究如何經過計算的手段，利用經驗來改善系統自身的性能.在計算機系統中，「經驗」一般以「數據」形式存在，所以，機器學習所研究的主要內容，是關於在計算機上從數據中產生「模型」（model)的算法，即「學習算法」（learning algorithm).有了學習算法，咱們把經驗數據提供給它，它就能基於這些數據產生模型；在面對新的狀況時(例如看到一個沒剖開的西瓜)，模型會給咱們提供相應的判斷(例如好瓜).若是說計算機科學是研究關於「算法」的學問，那麼相似的，能夠說機器學習是研究關於「學習算法」的學問。bootstrap

基本術語：

編號	色澤	根蒂	敲聲	好瓜
1	青綠	蜷縮	濁響	是
2	烏黑	蜷縮	濁響	是
3	青綠	硬挺	清脆	否
4	烏黑	稍蜷	沉悶	否

數據集（data set）

這組記錄的集合稱爲一個數據集（data set）安全

示例」（instance)、樣本」（sample)

其中每條記錄是關於一個事件或對象(這裏是一個西瓜)的描述，稱爲一個「示例」（instance)或「樣本」（sample).有時整個數據集亦稱一個「樣本」，由於它可看做對樣本空間的一個採樣; 經過上下文可判斷出「樣本」是指單個示例仍是數據集。網絡

屬性（attribute）、特徵（feature）

反映事件或對象在某方面的表現或性質的事項，例如「色澤」「根蒂」「敲聲」，稱爲「屬性」（attribute)或「特徵」（feature).app

屬性值（attribute value）

屬性上的取值，例如「青綠」「烏黑」，稱爲「屬性值」（attribute value)「.機器學習

「屬性空間」（attribute space)、「樣本空間」（sample space)或「輸入空間」

屬性合成的空間稱爲「屬性空間」（attribute space)、「樣本空間」（sample space)或「輸入空間」ide

特徵向量（feature vector）

例如咱們把「色澤」「根蒂」「敲聲」做爲三個座標軸，則它們張成一個用於描述西瓜的三維空間，每一個西瓜均可在這個空間中找到本身的座標位置.因爲空間中的每一個點對應一個座標向量，所以咱們也把一個示例稱爲一個 「特徵向量」（feature vector).函數

維數（dimensionality）

通常地，令* D * = { $x_{1}$ 性能

學習、訓練、訓練數據、訓練樣本、訓練集、假設、真相、真實、學習器

從數據中學得模型的過程稱爲「學習」（learning)或「訓練」（training), 這個過程經過執行某個學習算法來完成.訓練過程當中使用的數據稱爲「訓練數據」（training data)，其中每一個樣本稱爲一個「訓練樣本」（training sample), 訓練樣本組成的集合稱爲「訓練集」（training set).學得模型對應了關於數據的某種潛在的規律，所以亦稱假設」（hypothesis);這種潛在規律自身，則稱爲「真相」或「真實」 (ground-tmth),學習過程就是爲了找出或逼近真相.有時將模型稱爲「學習器」（learner),可看做學習算法在給定數據和參數空間上的實例化.學習

「訓練示例」（training instance)、「訓練例」

訓練樣本亦稱「訓練示例」（training instance)或「訓練例」.

預測、標記、樣例、標記空間、輸出空間

學習算法一般有參數需設置，使用不一樣的參數值和(或)訓練數據，將產生不一樣的結果.

若是但願學得一個能幫助咱們判斷沒剖開的是否是「好瓜」的模型，僅有前面的示例數據顯然是不夠的.要創建這樣的關於「預測」（prediction)的模型，咱們需得到訓練樣本的「結果」信息，例如「((色澤=青綠;根蒂=蜷縮; 敲聲=濁響)，好瓜這裏關於示例結果的信息，例如「好瓜」，稱爲「標記」（label);擁有了標記信息的示例，則稱爲「樣例」（example).—般地，用( $x_{i}$

將「label」譯爲「標記」而非「標籤」，是考慮到英文中「label」既可用做名詞、也可用做動詞.若將標記看做對象自己的一部分，則「樣例」有時也稱爲「樣本」.

分類、迴歸、二分類、正類、反類、多分類

若咱們欲預測的是離散值，例如「好瓜」「壞瓜」，此類學習任務稱爲「分類」（classification);若欲預測的是連續值，例如西瓜成熟度0.9五、0.37, 此類學習任務稱爲「迴歸」（regression).對只涉及兩個類別的「二分類」（binary classification)任務，一般稱其中一個類爲「正類」（positive class), 另外一個類爲「反類'(negative class);涉及多個類別時，則稱爲「多分類」（multi-class classification)任務.通常地，預測任務是但願經過對訓練集{( $x_{1}, y_{1}$

Note:

學得模型後，使用其進行預測的過程稱爲「測試」（testing)，被預測的樣本稱爲「測試樣本」（testing sample).例如在學得 $f$ 亦稱「測試示例」（testing instance）或「測試例」

聚類、簇

咱們還能夠對西瓜作「聚類」（clustering)，即將訓練集中的西瓜分紅若干組，每組稱爲一個「簇」（cluster);這些自動造成的簇可能對應一些潛在的概念劃分，例如「淺色瓜」「深色瓜」，甚至「本地瓜」「外地瓜」.這樣的學習過程有助於咱們瞭解數據內在的規律，能爲吏深刻地分析數據創建基礎.需說明的是，在聚類學習中，「淺色瓜」「本地瓜」這樣的概念咱們事先是不知道的，並且學習過程當中使用的訓練樣本一般不擁有標記信息.

監督學習、無監督學習

根據訓練數據是否擁有標記信息，學習任務可大體劃分爲兩大類：「監督學習」（supervised learning)和「無監督學習」（unsupervised learning),分類和迴歸是前者的表明，而聚類則是後者的表明.

亦稱「有導師學習」和「無導師學習」

泛化能力

需注意的是，機器學習的目標是使學得的模型能很好地適用於「新樣本」, 而不是僅僅在訓練樣本上工做得很好；即使對聚類這樣的無監督學習任務，咱們也但願學得的簇劃分能適用於沒在訓練集中出現的樣本.學得模型適用於新樣本的能力，稱爲「泛化」（generalization)能力.具備強泛化能力的模型能很好地適用於整個樣本空間.因而，儘管訓練集一般只是樣本空間的一個很小的採樣，咱們仍但願它能很好地反映出樣本空間的特性，不然就很難指望在訓練集上學得的模型能在整個樣本空間上都工做得很好.一般假設樣本空間中全體樣本服從一個未知「分佈」（distribution) $D$

$D$

假設空間

概括(induction)與演繹(deduction)是科學推理的兩大基本手段。前者是從特殊到通常的「泛化」（generalization)過程，即從具體的事實歸結出通常性規律；後者則是從通常到特殊的「特化」（specialization)過程，即從基礎原理推演出具體情況.例如，在數學公理系統中，基於一組公理和推理規則推導出與之相洽的定理，這是演繹;而「從樣例中學習」顯然是一個概括的過程，所以亦稱 「概括學習」（inductive learning) 。

概括學習有狹義與廣義之分，廣義的概括學習大致至關於從樣例中學習，而狹義的概括學習則要求從訓練數據中學得概念(concept)，所以亦稱爲「概念學習」或「概念造成」.概念學習技術目前研究、應用都比較少，由於要學得泛化性能好且語義明確的概念實在太困難了，現實經常使用的技術大可能是產生「黑箱」模型.然而，對概念學習有所瞭解，有助於理解機器學習的一些基礎思想.

概念學習中最基本的是布爾概念學習，即對「是」「不是」這樣的可表示爲0/1布爾值的目標概念的學習。

編號	色澤	根蒂	敲聲	好瓜
1	青綠	蜷縮	濁響	是
2	烏黑	蜷縮	濁響	是
3	青綠	硬挺	清脆	否
4	烏黑	稍蜷	沉悶	否

(色澤=?)⋀(根蒂=?)⋀(敲聲=?)↔好瓜

學習過程⟶⟶ 在全部假設(hypothesis)組成的空間中進行搜索的過程

目標: 找到與訓練集「匹配」(fit)的假設

以西瓜問題假設爲例。色澤屬性可取（青綠，烏黑，淺白，* ），根蒂屬性可取（蜷縮，稍蜷，硬挺，* ），敲聲屬性可取（濁響，清脆，沉悶，* ），以及好瓜假設不存在( $ϕ$

$ϕ$

版本空間

能夠有許多策略對這個假設空間進行搜索，例如自頂向下、從通常到特殊，或是自底向上、從特殊到通常，搜索過程當中能夠不斷刪除與正例不一致的假設、和(或)與反例一致的假設.最終將會得到與訓練集一致(即對全部訓練樣本可以進行正確判斷)的假設，這就是咱們學得的結果.

需注意的是，現實問題中咱們常面臨很大的假設空間，但學習過程是基於有限樣本訓練集進行的，所以，可能有多個假設與訓練集一致，即存在着一個與訓練集一致的「假設集合」，咱們稱之爲「版本空間」（version space)

概括偏好

經過學習獲得的模型對應了假設空間中的一個假設.因而，上面西瓜版本空間給咱們帶來一個麻煩：如今有三個與訓練集一致的假設，但與它們對應的模型在面臨新樣本的時候，卻會產生不一樣的輸出.例如，對(色澤=青綠; 根蒂=蜷縮；敲聲=沉悶)這個新收來的瓜，若是咱們採用的是「好瓜 $⟷$

若僅有以上的訓練樣本，則沒法判定上述三個假設中哪個「更好」. 然而，對於一個具體的學習算法而言，它必需要產生一個模型.這時，學習算法自己的「偏好」就會起到關鍵的做用.例如，若咱們的算法喜歡「儘量特殊」的模型，則它會選擇「好瓜 $⟷$

奧卡姆剃刀」（Occam’s razor)是一種經常使用的、天然科學研究中最基本的原則，即「如有多個假設與觀察一致，則選最簡單的那個」.若是採用這個原則，而且假設咱們認爲「更平滑」意味着「更簡單」（例如曲線 A更易於描述，其方程式是 $y = - x^{2} + 6 x + 1$

No Free Lunch Theoren 定理，沒有免費的午飯定理，簡稱NFL定理，由美國斯坦福大學的Wolpert和Macready教授提出。

NFL定理：一個算法A若在某些問題上比另外一個算法B好，必存在另外一些問題B比A好

爲簡單起見，假設樣本空間 $X$

$E_{o t e} (L_{a} | X, f) = \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

其中 $I (\cdot)$

考慮二分類問題，且真實目標函數能夠是任何函數 $x ⟼ 0, 1$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \sum_{f} I (h (x) \neq f (x))$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \frac{1}{2} 2^{| x |}$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a})$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \cdot 1$

上式顯示出，總偏差和學習算法無關！對於任意兩個學習算法 $L_{a}$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} E_{o t e} (L_{b} | X, f)$

也就是說，不管學習算法 $L_{a}$

總結

NFL定理有一個重要前提：全部「問題」出現的機會相同、或全部問題同等重要.但實際情形並非這樣.不少時候，咱們只關注本身正在試圖解決的問題(例如某個具體應用任務)，但願爲它找到一個解決方案，至於這個解決方案在別的問題、甚至在類似的問題上是否爲好方案，咱們並不關心.例如，爲了快速從A地到達B地，若是咱們正在考慮的A地是南京鼓樓、B地是南京新街口，那麼「騎自行車」是很好的解決方案；這個方案對A 地是南京鼓樓、B地是北京新街口的情形顯然很糟糕，但咱們對此並不關心.

NFL定理最重要的寓意，是讓咱們清楚地認識到，脫離具體問題，空泛地談論「什麼學習算法更好」毫無心義，由於若考慮全部潛在的問題，則全部學習算法都同樣好.要談論算法的相對優劣，必需要針對具體的學習問題；在某些問題上表現好的學習算法，在另外一些問題上卻可能不盡如人意，學習算法自身的概括偏好與問題是否相配，每每會起到決定性的做用.

經驗偏差和過擬合

一般咱們把分類錯誤的樣本數佔樣本總數的比例稱爲「錯誤率」（error rate),即若是在m個樣本中有a個樣本分類錯誤，則錯誤率 $E$

咱們實際但願的，是在新樣本上能表現得很好的學習器.爲了達到這個目的，應該從訓練樣本中儘量學出適用於全部潛在樣本的「廣泛規律」，這樣才能在遇到新樣本時作出正確的判別.然而,當學習器把訓練樣本學得「太好」了的時候，極可能已經把訓練樣本自身的一些特色當作了全部潛在樣本都會具備的通常性質，這樣就會致使泛化性能降低。這種現象在機器學習中稱爲 「過擬合」（overfitting).與「過擬合」相對的是「欠擬合」（underfitting),這是指對訓練樣本的通常性質還沒有學好。

總結

有多種因素可能致使過擬合，其中最多見的狀況是因爲學習能力過於強大,以致於把訓練樣本所包含的不太通常的特性都學到了，而欠擬合則一般是因爲學習能力低下而形成的.欠擬合比較容易克服，例如在決策樹學習中擴展分支、在神經網絡學習中増加訓練輪數等，而過擬合則很麻煩.在後面的學習中咱們將看到，過擬合是機器學習面臨的關鍵障礙，各種學習算法都必然帶有一些針對過擬合的措施;然而必須認識到，過擬合是沒法完全避免的，咱們所能作的只是「緩解」，或者說減少其風險.

在現實任務中，咱們每每有多種學習算法可供選擇，甚至對同一個學習算法，當使用不一樣的參數配置時，也會產生不一樣的模型.那麼，咱們該選用哪個學習算法、使用哪種參數配置呢？這就是機器學習中的「模型選擇」（model selection)問題.理想的解決方案固然是對候選模型的泛化偏差進行評估，而後選擇泛化偏差最小的那個模型.然而如上面所討論的，咱們沒法直接得到泛化偏差，而訓練偏差又因爲過擬合現象的存在而不適合做爲標準，那麼，在現實中如何進行模型評估與選擇呢？

如何得到測試結果？ ⟹⟹ 評估方法

如何評估性能優劣？ ⟹⟹ 性能度量

如何判斷實質差異？ ⟹⟹ 比較檢驗

評估方法

測試集應該與訓練集「互斥」

留出法 (hold-out)
交叉驗證法 (cross validation)
自助法 (bootstrap)

留出法

留出法（hold-out)直接將數據集D劃分爲兩個互斥的集合，其中一個集合S做爲訓練集另外一個做爲測試集T,即 $D = S \cup T$

交叉驗證法

「交叉驗證法」（cross validation)先將數據集 $D$

假定數據集 $D$

擴展

咱們但願評估的是用𝐷D訓練出的模型.但在留出法和交叉驗證法中，因爲保留了一部分樣本用於測試，所以實際評估的模型所使用的訓練集比D小，這必然會引入一些因訓練樣本規模不一樣而致使的估計誤差.留一法受訓練樣本規模變化的影響較小，但計算複雜度又過高了.有沒有什麼辦法能夠減小訓練樣本規模不一樣形成的影響，同時還能比較高效地進行實驗估計呢？

自助法

「自助法」（bootstrapping)是一個比較好的解決方案，它直接以自助採樣法(bootstrap sampling)爲基礎[Efron and Tibshirani, 1993].給定包含m個樣本的數據集 $D$

$lim_{m \to \infty} (1 - \frac{1}{m})^{m} ⟶ \frac{1}{e} \approx 0.368$

即經過自助釆樣，初始數據集乃中約有36.8%的樣本未出如今釆樣數據集 $D^{'}$

自助法在數據集較小、難以有效劃分訓練/測試集時頗有用;此外，自助法能從初始數據集中產生多個不一樣的訓練集，這對集成學習等方法有很大的好處. 然而，自助法產生的數據集改變了初始數據集的分佈，這會引入估計誤差.所以,在初始數據量足夠時，留出法和交叉驗證法更經常使用一些.

性能度量

對學習器的泛化性能進行評估，不只須要有效可的實驗估計方法，還須要有衡量模型泛化能力的評價標準，這就是性能度量(performance measure).性能度量反映了任務需求，在對比不一樣模型的能力時，使用不一樣的性能度量往往會致使不一樣的評判結果；這意味着模型的「好壞」是相對的，什麼樣的模型是好的，不只取決於算法和數據，還決定於任務需求.

在預測任務中，給定樣例集 $D = (x_{1} ， y_{1}), (x_{2}, y_{2}), \dots, (x_{m} . y_{m})$

迴歸任務最經常使用的性能度量是「均方偏差」（mean squared error)

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}$

對於數據分佈 $D$

$E (f; D) = \int_{x \sim D} （ f (x) - y ）^{2} p (x) d x$

錯誤率是分類錯誤的樣本數佔樣本總數的比例

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) \neq y_{i})$

精度則是分類正確的樣本數佔樣本總數的比例

$a c c (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) = y_{i})$

錯誤率：

$E (f; D) = \int_{x \sim D} I （ f (x) \neq y ） p (x) d x$

查準率： $P = \frac{T P}{T P + F P}$

查全率： $R = \frac{T P}{T P + F N}$

查準率和查全率是一對予盾的度量，通常來講，查準率高時，查全率每每偏低查全率高時.查準率偏低。

PR圖，BEP（Break-Event Point）

根據學習器的預測結果按正例可能性大小對樣例進行排序，並逐個把樣本做爲正例進行預測

比 BEP 更經常使用的 F1 度量：

F1： $F 1 = \frac{2 P R}{P + R} = \frac{2 T P}{样例总数 + T P - T N}$

若對查準率/查全率有不一樣偏好：

$F_{β} = \frac{(1 + β^{2}) P R}{(β^{2} P) + R}$

$β = 1$

擴展

不少時候咱們有多個二分類混淆矩陣

宏

$m a c r o - P = \frac{1}{n} \sum_{i = 1}^{n} P_{i}$

$m a c r o - R = \frac{1}{n} \sum_{i = 1}^{n} R_{i}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

微

$m i c r o - P = \frac{\bar{P T}}{\bar{T P} + \bar{F P}}$

$m i c r o - P = \frac{\bar{T P}}{\bar{T P} + \bar{F N}}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

ROC 與 AUC

ROC全稱是「受試者工做特徵」（Receiver Operating Characteristic）。ROC曲線的面積就是AUC（Area Under the Curve）

$T P R = \frac{T P}{T P + F N}$

$F P R = \frac{F P}{T N + F P}$

$AUC=\frac{1}{2}\sum^{m-1}{i=1}(x{i+1}-x_i)\cdot(y_i + y_{i+1})$

代價敏感錯誤率與代價曲線

在現實任務中常會遇到這樣的狀況：不一樣類型的錯誤所形成的後果不一樣. 例如在醫療診斷中，錯誤地把患者診斷爲健康人與錯誤地把健康人診斷爲患者, 看起來都是犯了「一次錯誤」，但後者的影響是增長了進一步檢查的麻煩，前者的後果卻多是喪失了拯救生命的最佳時機；再如，門禁系統錯誤地把可通行人員攔在門外，將使得用戶體驗不佳,但錯誤地把陌生人放進門內，則會形成嚴重的安全事故.爲權衡不一樣類型錯誤所形成的不一樣損失，可爲錯誤賦予「非均等代」（unequal cost).

以二分類任務爲例，咱們可根據任務的領域知識設定一個「代價矩陣」（cost matrix)，其中 $c o s t_{i j}$

代價敏感（cost-sensitive）錯誤率 $E (f; D; c o s t) = \frac{1}{m} (\sum_{x_{i} \in D^{+}} I (f (x_{i}) \neq y_{i}) \times c o s t_{01} + \sum_{x_{i} \in D^{-}} I (f (x_{i}) \neq y_{i}) \times c o s t_{10})$

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

機器學習系列(一)--術語篇

基本術語：

數據集（data set）

示例」（instance)、樣 本」（sample)

屬性（attribute）、特徵（feature）

屬性值（attribute value）

「屬性空間」（attribute space)、「樣本空間」（sample space)或「輸入空間」

特徵向量（feature vector）

維數（dimensionality）

學習、訓練、訓練數據、訓練樣本、訓練集、假設、真相、真實、學習器

「訓練示例」 （training instance)、「訓練例」

預測、標記、樣例、標記空間、輸出空間

分類、迴歸、二分類、正類、反類、多分類

聚類、簇

監督學習、無監督學習

泛化能力

假設空間

版本空間

概括偏好

Eote(La|X,f)=∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)Eote(La|X,f)=∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)

∑fEote(La|X,f)=∑f∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)∑fEote(La|X,f)=∑f∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)

=∑x∈χ−XP(x)∑hP(h|X,La)∑fI(h(x)≠f(x))=∑x∈χ−XP(x)∑hP(h|X,La)∑fI(h(x)≠f(x))

=∑x∈χ−XP(x)∑hP(h|X,La)122|x|=∑x∈χ−XP(x)∑hP(h|X,La)122|x|

=122|x|∑x∈χ−XP(x)∑hP(h|X,La)=122|x|∑x∈χ−XP(x)∑hP(h|X,La)

=122|x|∑x∈χ−XP(x)⋅1=122|x|∑x∈χ−XP(x)⋅1

∑fEote(La|X,f)=∑fEote(Lb|X,f)∑fEote(La|X,f)=∑fEote(Lb|X,f)

總結

經驗偏差和過擬合

總結

評估方法

留出法

交叉驗證法

擴展

自助法

limm→∞(1−1m)m⟶1e≈0.368limm→∞(1−1m)m⟶1e≈0.368

性能度量

E(f;D)=1m∑mi=1(f(xi)−yi)2E(f;D)=1m∑i=1m(f(xi)−yi)2

E(f;D)=∫x∼D（f(x)−y）2p(x)dxE(f;D)=∫x∼D（f(x)−y）2p(x)dx

E(f;D)=1m∑mi=1I(f(xi)≠yi)E(f;D)=1m∑i=1mI(f(xi)≠yi)

acc(f;D)=1m∑mi=1I(f(xi)=yi)acc(f;D)=1m∑i=1mI(f(xi)=yi)

錯誤率：

E(f;D)=∫x∼DI（f(x)≠y）p(x)dxE(f;D)=∫x∼DI（f(x)≠y）p(x)dx

查準率：P=TPTP+FPP=TPTP+FP

查全率：R=TPTP+FNR=TPTP+FN

PR圖，BEP（Break-Event Point）

F1：F1=2PRP+R=2TP樣例總數+TP−TNF1=2PRP+R=2TP樣例總數+TP−TN

Fβ=(1+β2)PR(β2P)+RFβ=(1+β2)PR(β2P)+R

擴展

macro−P=1n∑ni=1Pimacro−P=1n∑i=1nPi

macro−R=1n∑ni=1Rimacro−R=1n∑i=1nRi

macro−F1=2macro−P×macro−Rmacro−P+macro−Rmacro−F1=2macro−P×macro−Rmacro−P+macro−R

micro−P=PT¯¯¯¯¯¯¯¯TP¯¯¯¯¯¯¯¯+FP¯¯¯¯¯¯¯¯micro−P=PT¯TP¯+FP¯

micro−P=TP¯¯¯¯¯¯¯¯TP¯¯¯¯¯¯¯¯+FN¯¯¯¯¯¯¯¯¯micro−P=TP¯TP¯+FN¯

macro−F1=2macro−P×macro−Rmacro−P+macro−Rmacro−F1=2macro−P×macro−Rmacro−P+macro−R

ROC 與 AUC

TPR=TPTP+FNTPR=TPTP+FN

FPR=FPTN+FPFPR=FPTN+FP

$AUC=\frac{1}{2}\sum^{m-1}{i=1}(x{i+1}-x_i)\cdot(y_i + y_{i+1})$

代價敏感錯誤率與代價曲線

代價敏感（cost-sensitive）錯誤率E(f;D;cost)=1m(∑xi∈D+I(f(xi)≠yi)×cost01+∑xi∈D−I(f(xi)≠yi)×cost10)

示例」（instance)、樣本」（sample)

「訓練示例」（training instance)、「訓練例」

$E_{o t e} (L_{a} | X, f) = \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \sum_{f} I (h (x) \neq f (x))$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \frac{1}{2} 2^{| x |}$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a})$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \cdot 1$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} E_{o t e} (L_{b} | X, f)$

$lim_{m \to \infty} (1 - \frac{1}{m})^{m} ⟶ \frac{1}{e} \approx 0.368$

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}$

$E (f; D) = \int_{x \sim D} （ f (x) - y ）^{2} p (x) d x$

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) \neq y_{i})$

$a c c (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) = y_{i})$

$E (f; D) = \int_{x \sim D} I （ f (x) \neq y ） p (x) d x$

查準率： $P = \frac{T P}{T P + F P}$

查全率： $R = \frac{T P}{T P + F N}$

F1： $F 1 = \frac{2 P R}{P + R} = \frac{2 T P}{样例总数 + T P - T N}$

$F_{β} = \frac{(1 + β^{2}) P R}{(β^{2} P) + R}$

$m a c r o - P = \frac{1}{n} \sum_{i = 1}^{n} P_{i}$

$m a c r o - R = \frac{1}{n} \sum_{i = 1}^{n} R_{i}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

$m i c r o - P = \frac{\bar{P T}}{\bar{T P} + \bar{F P}}$

$m i c r o - P = \frac{\bar{T P}}{\bar{T P} + \bar{F N}}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

$T P R = \frac{T P}{T P + F N}$

$F P R = \frac{F P}{T N + F P}$

代價敏感（cost-sensitive）錯誤率 $E (f; D; c o s t) = \frac{1}{m} (\sum_{x_{i} \in D^{+}} I (f (x_{i}) \neq y_{i}) \times c o s t_{01} + \sum_{x_{i} \in D^{-}} I (f (x_{i}) \neq y_{i}) \times c o s t_{10})$