Precision,Recall,TPR,FPR,ROC,AUC,F1辨析

常見統計學習的性能指標

分類結果

  • 對於一個二分類問題,分類結果以下:性能

    - - 預測 預測 -
    - - 1 0 合計
    實際 1 True Positive(TP) False Negative(FN) 實際爲正
    實際 0 False Positive(FP) True Negative(TN) 實際爲負
    合計 - 預測爲正 預測爲負 整體

    -- TP:真正類,一個實例是正類,而且被預測爲正類學習

    -- FN:假負類,一個實例是正類,可是被預測爲負類,漏報測試

    -- FP:假正類,一個實例是負類,可是被預測爲正類,誤報code

    -- TN:真負類,一個實例是負類,而且被預測爲負類ci

    記憶方法:第一個字母表示預測是否正確,第二個字母表示預測的結果it

評價指標

  • 真正類率:True Positive Rate(TPR), Recall
    表示預測爲正類而且實際是正類的實例的個數佔整體中正實例的比例,所以也稱爲 靈敏度Sensitivity,通俗的理解爲:正實例被正確的預測的比例io

    TPR = TP / (TP + FN)
  • 假正類率:False Positive Rate(FPR)
    表示預測爲正類而且實際是負類的實例的個數佔整體中全部負類的比例,所以也稱之爲 特異度,等價於 1-Specific,通俗的理解爲:負實例被誤報的比例table

    FPR = FP / (FP + TN)
  • 真負類率:True Negative Rate(TNR)
    表示預測爲負類而且實際是負類的實例的個數佔整體中負實例的比例,所以也稱爲 specific方法

    TNR = TN / (TN + FP)
  • 假負類率:False Negative Rate(FNR)
    表示預測爲負類而且實際爲正例的個數佔整體中的全部正類的個數,通俗的理解爲:正實例被漏報的比例im

    FNR = FN / (FN + TP)
  • 精確度:Precision
    表示預測爲正類而且實際是正類的實例的個數佔預測爲正實例的比例

    Precision = TP / (TP + FP)

    方便記憶: TPR,TNR的分子都是前兩個字母,分母是被預測爲第二個字母表示, 對於TPR: 分子爲TP,分母爲預測爲P,即預測爲正的,那麼預測的爲正包含兩部分分別是TP + FN;對於TNR:分子爲TN,分母爲預測爲N的,那麼預測爲N的包含兩部分,分別是TN + FP
    方便記憶:對於FPR,分子爲FP,表示實際爲負例,被預測爲正例,被誤報了,對於誤報率,分母天然就是全部的負樣本了包含TN和FP,其實能夠記憶分母爲FP(來自於前兩個字母),第二個加項就是T(第二個字母取反);而對於FNR,分子爲FN,表示實際爲正例,被預測爲負例,被漏報了,對於漏報率,固然分母爲全體的正樣本了,包含兩部分,TP + FN

  • F1 Measure
    也稱爲 F1 Score,被定義爲Precision和Recall的調和平均數,計算以下:

    $$ F1=\frac{2\times Precision\times Recall}{Precision+Recall} $$

    更通常地,咱們定義$F_\beta$以下:

    $$ F_\beta = (1+\beta^2)\frac{Precision\times Recall}{Precision + Recall} $$

    除F1以外,在統計學中,$F_2$和$F_{0.5}$也獲得了大量的應用,$F_2$中Recall的權重比較大,而在$F_{0.5}$中,Precision的權重比較大。

  • ROC:Recevier Operating Characteristic,受試者工做特徵曲線 / 接收器操做特徵曲線
    曲線上的每一個點反映着對同一信號刺激的感覺性,所以也被稱之爲 感覺性曲線(Sensitivity Curve)

    • X軸:負正類率(FPR,特異度,1-Specific)
    • Y軸:真正類率(TPR,靈敏度,Sensitivity,Recall)
  • AUC:Aera Under Curve,即ROC曲線下的面積
    這個面積顯然不會大於1,又由於ROC曲線通常都在y=x這條直線上方,因此AUC的值域爲(0, 1)
    使用AUC做爲評價指標是由於不少時候咱們並不可以從ROC曲線上清晰準確地判斷哪一個分類器的性能更好,而做爲一個數值,AUC越大,對應的分類器的性能越好。AUC的計算能夠參考 scikit-learn的實現。

爲何使用ROC曲線?

由於當測試集中的正負樣本的分佈發生變化的時候,ROC曲線可以保持不變,所以可以更客觀的進行分類器性能的評價

相關文章
相關標籤/搜索