1. 分類器評估指標機器學習
對於二分類問題,可將樣例根據其真實類別和分類器預測類別劃分爲:
真正例(True Positive,TP):真實類別爲正例,預測類別爲正例。
假正例(False Positive,FP):真實類別爲負例,預測類別爲正例。
假負例(False Negative,FN):真實類別爲正例,預測類別爲負例。
真負例(True Negative,TN):真實類別爲負例,預測類別爲負例。性能
精確度( precision ):TP / ( TP+FP ) = TP / P 學習
召回率(recall):TP / (TP + FN ) = TP / T測試
真陽性率(True positive rate):TPR = TP / ( TP+FN ) = TP / T (敏感性 sensitivity)spa
假陽性率(False positive rate):FPR = FP / ( FP + TN ) = FP / F (特異性:specificity)3d
準確率(Accuracy):Acc = ( TP + TN ) / ( P +N )blog
F-measure:2*recall*precision / ( recall + precision )ci
ROC曲線:FPR爲橫座標,TPR爲縱座標it
PR曲線:recall爲橫座標,precision 爲縱座標io
AUC(Area Under Curve),就是這條ROC曲線下方的面積了。越接近1表示分類器越好。 可是,直接計算AUC很麻煩,但因爲其跟Wilcoxon-Mann-Witney Test等價,因此能夠用這個測試的方法來計算AUC。Wilcoxon-Mann-Witney Test指的是,任意給一個正類樣本和一個負類樣本,正類樣本的score有多大的機率大於負類樣本的score(score指分類器的打分)。
隨着FPR的上升,ROC曲線從原點(0, 0)出發,最終都會落到(1, 1)點。ROC即是其右下方的曲線面積。下圖展示了三種AUC的值:
AUC = 1,是完美分類器,採用這個預測模型時,無論設定什麼閾值都能得出完美預測。絕大多數預測的場合,不存在完美分類器。
0.5 < AUC < 1,優於隨機猜想。這個分類器(模型)妥善設定閾值的話,能有預測價值。
AUC = 0.5,跟隨機猜想同樣(例:丟銅板),模型沒有預測價值。
AUC < 0.5,比隨機猜想還差;但只要老是反預測而行,就優於隨機猜想,所以不存在AUC < 0.5的狀況
AUC對於每個作機器學習的人來講必定不陌生,它是衡量二分類模型優劣的一種評價指標,表示正例排在負例前面的機率。其餘評價指標有精確度、準確率、召回率,而AUC比這三者更爲經常使用。由於通常在分類模型中,預測結果都是以機率的形式表現,若是要計算準確率,一般都會手動設置一個閾值來將對應的機率轉化成類別,這個閾值也就很大程度上影響了模型準確率的計算。
咱們不妨舉一個極端的例子:一個二類分類問題一共10個樣本,其中9個樣本爲正例,1個樣本爲負例,在所有判正的狀況下準確率將高達90%,而這並非咱們但願的結果,尤爲是在這個負例樣本得分仍是最高的狀況下,模型的性能本應極差,從準確率上看卻拔苗助長。而AUC能很好描述模型總體性能的高低。這種狀況下,模型的AUC值將等於0(固然,經過取反能夠解決小於50%的狀況,不過這是另外一回事了)。