這篇文章是學習了2周後,對模型評估與選擇的總結,對應:
文章標題排版以西瓜書爲參考。另外公式比較多,app會亂碼。請在瀏覽器或電腦查看。
錯誤率(error rate):錯誤的樣本數佔樣本總數的比例。
即在m個樣本中有a個樣本分類錯誤,則:
誤差(error):實際預測輸出與樣本的真實輸出之間的差異。
訓練誤差(training error)或經驗誤差(empirical error):訓練集(training set)上的誤差。
泛化誤差(generalization error):新樣本上的誤差。
過擬合(overfitting):把訓練樣本自身的一些特點當成所有潛在樣本都會具有的一般性質,導致泛化性能下降。
欠擬合(underfitting):對訓練樣本的一般性質尚未學好。
要評估,需使用一個「測試集」(testing set)來測試學習器對新樣本的判別能力,然後以測試集上的「測試誤差」(testing error)作爲泛化誤差的近似。
測試集應儘可能與訓練集互斥。
假定,一個包含m個樣例的數據集D,從中產生訓練集S和測試集T,則:
留出法:直接將數據集D分割成兩個互斥集合,即:
分層採樣(stratified sampling):保留類別比例的採樣方式。
單次使用留出法得到的估計結果往往不夠穩定可靠,在使用留出法時,一把要採用若干次隨機劃分、重複進行實驗評估後取平均值作爲留出法的結果。
留出法的問題:
如果S較大,結果可能不夠穩定準確;
如果S較小,會降低評估結果的保真性(fidelity)。
這個問題沒有完美的解決方案,常見做法是將大約 2/3 ~ 4/5 的樣本用於訓練。
k折交叉驗證法:將D分割成k個大小相似的互斥子集,即:
然後,每次用k-1個子集的並集作爲訓練集,餘下的子集作爲測試集;進行k次訓練和測試,最終返回k個測試結果的均值。
常見k的取值:5,10,20等
爲減少因樣本劃分不同而引入的差別,k折交叉驗證通常要隨機使用不同的劃分重複p次,最終評估結果是p次k折交叉驗證結果的均值。
當 k = m 時,稱爲留一法(Leave-One-Out,簡稱LOO)。留一法評估結果往往被認爲比較準確,但當D比較大時,開銷可能是難以忍受的。
自助法:以自助採樣(bootstrap sampling)爲基礎產生數據集,即隨機從D中選擇一個樣本的拷貝,重複m次,作爲訓練集。不被採樣到的概率再取極限得
即,約有36.8%未被採樣,並將它作爲測試集。這樣產生的測試結果稱爲「包外估計」(out-of-bagestimate)。
由於自助法產生的數據集改變了初始數據集的分佈,這會引入估計誤差。因此,當數據量足夠時,留出法與交叉驗證法更常用。
對每種參數配置都訓練出模型是不可行的。常見做法,對每個參數選定一個範圍和變化步長。
在模型選擇完成後,學習算法和參數配置已選定,此時應該用D重新訓練。
模型評估與選擇中用於評估測試的數據集常稱爲「驗證集」(validation set)。
性能度量:衡量模型泛化能力的評價指標。學習器記作 。
最常用的指標是均方誤差(mean squared error):
對於數據分佈D與概率密度函數p(·),均方誤差爲:
一般的
錯誤率(error rate)
精度(accuracy):
對於數據分佈D與概率密度函數p(·),有
錯誤率(error rate)
精度(accuracy):
對於二分類問題(binary classification)可將樣例(example)根據其真實性類別與學習器預測類別的組合劃分爲:
顯然有 TP + FP + TN + FN = 樣例總數。
混淆矩陣(confusion matrix)爲:
查準率(precision)又叫準確率,查準率P:
查全率(recall)又叫召回率,查全率R:
將學習器的預測結果進行排序(最可能-最不可能),把樣本作爲正例進行預測,則每次可以計算出查準率和查全率。然後生成的查準率-查全率曲線即P-R曲線。
圖片出自(《機器學習》——周志華)。
由於BEP還是過於簡化了,更常用的是F1度量。
F1度量的一般形式—— ,能表達出對查準率/查全率的不同偏好,它定義爲:
F1是基於查準率與查全率的調和平均(harmonic mean)定義的:
而 則是加權調和平均:
Wiki對於F1的原文:
The traditional F-measure or balanced F-score (F1 score) is the harmonic mean of precision and recall:
The general formula for positive real is:
The formula in terms of Type I and type II errors:
Two other commonly used measures are the measure, which weighs recall higher than precision (by placing more emphasis on false negatives), and the measure, which weighs recall lower than precision (by attenuating the influence of false negatives).
The F-measure was derived so that 「measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision」. It is based on Van Rijsbergen’s effectiveness measure.
Their relationship is
The F1 score is also known as the Sørensen–Dice coefficient or Dice similarity coefficient (DSC).
在n個二分類混淆矩陣上綜合考察查準率和查全率。有兩種方法:
其一:宏查準率(macro-P),宏查全率(macro-R),宏F1(macro-F1)
其二:微查準率(micro-P),微查全率(micro-R),微F1(micro-F1)
ROC曲線:根據預測結果對樣例進行排序,按此順序逐個把樣本作爲正例進行預測,每次計算出兩個值
真正例率(True Positive Rate,簡稱TPR),縱軸
假正例率(False Positive Rate,簡稱FPR),橫軸
組成的圖像。
圖片出自(維基百科——Receiver Operating Characteristic詞條)。
AUC的估計爲: