二分類模型的預測結果分爲四種狀況(正類爲1,反類爲0):函數
TP+FP+TN+FN=測試集全部樣本數量。性能
分類模型的性能評價指標(Performance Evaluation Metric)有:測試
準確率(Accuracy):全部分類正確的樣本數量除以總樣本數量lua
錯誤率(Error Rate):全部分類錯誤的樣本數量除以總樣本數量spa
(其中爲指示函數,知足要求則爲1,不知足爲0)3d
錯誤率等於一減準確率:。orm
混淆矩陣(Confusion Matrix):把真實值和預測值相對應的樣本數量列出來的一張交叉表。這樣,全部正確的預測結果都在其對角線上,因此從混淆矩陣中能夠很直觀地看出哪裏有錯誤。xml
準確率或錯誤率是最基本的分類模型性能評價指標。可是有時候各種別樣本數量不均衡,好比說,在一共100個測試樣本中,正類樣本有98個,負類樣本只有2個,那麼咱們只須要把模型作成把全部樣本都判爲正類便可,這樣準確率能夠達到98%。可是這樣的模型毫無心義。blog
即便各種別樣本數量比較均衡,但若是咱們更關心其中某個類別,那麼咱們就須要選擇咱們感興趣的類別的各項指標來評價模型的好壞。所以,人們又發明出了查全率和查準率等指標。ci
精確度(Precision):在全部預測爲正類的樣本中,預測正確的比例,也稱爲查準率
召回率(Recall):在全部實際爲正類的樣本中,預測正確的比例,也稱爲查全率
查準率和查全率是一對矛盾的度量。通常來講,查準率高時,查全率每每偏低;而查全率高時,查準率每每偏低。若是對這兩個指標都有要求,那麼能夠計算模型的F1值或查看PR曲線。
F1值(F1 Score):查準率和查全率的調和平均值
P-R曲線(Precision-Recall Curve):以precision爲y軸,以recall爲x軸,取不一樣的分類閾值,在此基礎上畫出來的一條曲線就叫作PR曲線。PR曲線越接近右上角(precision=1, recall=1),表明模型越好。若一個模型的PR曲線被另外一個模型的PR曲線徹底「包住」,則可斷言後者的性能優於前者;但若兩者的曲線發生了交叉,則難以通常性地斷言二者孰優孰劣,只能在具體查準率或查全率條件下比較。通常而言,比較 P-R 曲線下面積的大小,可必定程度上表徵模型在查準率和查全率上取得相對 「雙高」的比例,但該值不太容易計算。所以其它相對容易計算的性能度量被提出。
真正率(True Positive Rate,TPR):TPR = TP/(TP+FN),TPR越大越好,1爲理想狀態
假正率(False Positive Rate,FPR):FPR = FP/(TN+FP),FPR越小越好,0爲理想狀態
靈敏性(Sensitivity): True Positive Rate,等同於召回率
特異性(Specificity): True Negative Rate,Specificity = 1- False Positive Rate,SPC = TN/(FP + TN)
這幾個性能指標不受不均衡數據的影響。若要綜合考慮TPR和FPR,那麼能夠查看ROC曲線。
ROC曲線(Receiver Operating Characteristic Curve):全稱「受試者工做特徵」曲線。以「真正率」(True Positivate Rate,簡稱 TPR)爲y軸,以「假正例」(False Positive Rate,簡稱 FPR)爲x軸,取不一樣的分類閾值,在此基礎上畫出來的一條曲線就叫作ROC曲線。ROC曲線越接近左上角(true positive rate=1, false positive rate=0),表明模型性能越好。與 P-R 曲線同樣,若一個模型的 ROC 曲線被另外一個模型的曲線徹底「包住」,則斷言後者的性能優於前者;如有交叉,則難以通常斷言,此時可經過比較ROC曲線下的面積來判斷。
AUC(Area Under Curve):曲線下面積。AUC越大,表明模型性能越好。若AUC=0.5,即ROC曲線與上圖中的虛線重合,表示模型的區分能力與隨機猜想沒有差異。
以上說的是二分類的場景。對於多分類問題,有兩種方法計算其性能評價指標:
方法一:將多分類問題拆解成n個一對其他的二分類問題,這樣能夠獲得n個混淆矩陣,分別計算出每一個類別的precision和recall,再將其平均,即獲得」宏查準率「(macro-P),」宏查全率「(macro-R),相應計算出的的F1值稱爲」宏F1「(macro-F1)。對每一個類別計算出樣本在各個閾值下的假正率(FPR)和真正率(TPR),從而繪製出一條ROC曲線,這樣總共能夠繪製出n條ROC曲線,對n條ROC曲線取平均,便可獲得最終的ROC曲線。
方法二:將多分類問題拆解成n個一對其他的二分類問題,這樣能夠獲得n個混淆矩陣,把全部混淆矩陣中的TP,NP,FP,FN計算平均值 ,再用這些平均值計算出查準率和查全率,稱爲」微查準率「(micro-P),」微查全率「(micro-R),由微查準率和微查全率計算出的F1值稱爲 」微 F1「(micro-F1)。
對於多分類問題,macro-average(宏平均) 要比 micro-average(微平均) 好,由於宏平均受樣本數量少的類別影響較大。