在二分類模型中有如下問題網絡
預測爲正例的樣本中有多少比例是正例性能
查準率學習
有多少比例的正例被預測爲正例spa
查全率排序
混淆矩陣ip
PR曲線get
橫座標是recall,縱座標是precisionio
PR曲線必定程度地反映了,該模型區分正例和負例的能力。class
PR曲線面積小,說明模型對正例和負例的區分能力不足。
ROC曲線
橫座標是假陽性率FPR,縱座標是靈敏度TPR(recall)
ROC曲線下的面積
這種形式能夠看出ROC曲線面積可以衡量樣本預測的排序偏差
PR曲線(或ROC曲線)的繪製
對樣本的預測輸出排序(例如神經網絡模型輸出是數值),取一個閾值,計算該閾值對應的PR曲線(或ROC曲線)上的一點
ROC曲線效果好說明對樣本預測排序的偏差小,而PR曲線效果差說明模型的預測值不能很好地區分正例和負例
ROC曲線效果好,說明能同時保持查全率高和假陽性率低。
根據定義,當閾值的選取使得查全率(TPR)高時,FN遠小於TP。又由於假陽性率(FPR)低,因此FP遠小於TN。
說明不多有陽性樣本被判斷成陰性,被判斷成陽性樣本的陰性樣本的數量(FP)遠小於正確判斷爲陰性的樣本的數量(TN)。
PR曲線效果很差,說明查全率高的時候準確率低。
根據定義,當閾值的選取使得查全率高的時候,FN遠小於TP,而FP遠大於TP。說明不多有陽性樣本被判斷成陰性,可是有不少陰性樣本被判斷成陽性。
由於是獲得了同一個查全率,以上兩種狀況中取的閾值是同一個,因此\(FN\ll TP \ll FP \ll TN\)。其中FP和TN是陰性樣本,FN和TP是陽性樣本,這說明數據集裏陰性樣本的數量遠大於陽性樣本的數量。