轉自https://blog.csdn.net/qq_26591517/article/details/80092679markdown
1 ROC曲線的概念post
受試者工做特徵曲線 (receiver operating characteristic curve,簡稱ROC曲線),又稱爲 感覺性曲線(sensitivity curve)。得此名的緣由在於曲線上各點反映着相同的感覺性,它們都是對同一 信號刺激的反應,只不過是在幾種不一樣的斷定標準下所得的結果而已。接受者操做特性曲線就是以假陽性機率(False positive rate)爲 橫軸,擊中機率爲縱軸所組成的座標圖,和被試在特定刺激條件下因爲採用不一樣的判斷標準得出的不一樣結果畫出的曲線。atom
ROC 曲線是根據一系列不一樣的二分類方式(分界值或決定閾),以真陽性率(靈敏度)爲縱座標,假陽性率(1-特異度)爲橫座標繪製的曲線。傳統的診斷試驗評價方 法有一個共同的特色,必須將試驗結果分爲兩類,再進行統計分析。ROC曲線的評價方法與傳統的評價方法不一樣,無須此限制,而是根據實際狀況,容許有中間狀 態,能夠把試驗結果劃分爲多個有序分類,如正常、大體正常、可疑、大體異常和異常五個等級再進行統計分析。所以,ROC曲線評價方法適用的範圍更爲普遍。.net
2 ROC曲線的例子翻譯
考慮一個二分問題,即將實例分紅正類(positive)或負類(negative)。對一個二分問題來講,會出現四種狀況。若是一個實例是正類而且也 被 預測成正類,即爲真正類(True positive),若是實例是負類被預測成正類,稱之爲假正類(False positive)。相應地,若是實例是負類被預測成負類,稱之爲真負類(True negative),正類被預測成負類則爲假負類(false negative)。3d
FN:漏報,沒有正確找到的匹配的數目;excel
TN:正確拒絕的非匹配對數;blog
列聯表以下表所示,1表明正類,0表明負類。 ci
從列聯表引入兩個新名詞。其一是真正類率(true positive rate ,TPR), 計算公式爲TPR=TP/ (TP+ FN),刻畫的是分類器所識別出的 正實例佔全部正實例的比例。另一個是假正類率(false positive rate, FPR),計算公式爲FPR= FP / (FP + TN),計算的是分類器錯認爲正類的負實例佔全部負實例的比例。還有一個真負類率(True Negative Rate,TNR),也稱爲specificity,計算公式爲TNR=TN/ (FP+ TN) = 1-FPR。get
其中,兩列True matches和True non-match分別表明兩行Pred matches和Pred non-match分別表明匹配上和預測匹配上的
FPR = FP/(FP + TN) 負樣本中的錯判率(假警報率)
TPR = TP/(TP + TN) 判對樣本中的正樣本率(命中率)
ACC = (TP + TN) / P+N 判對準確率
在一個二分類模型中,對於所獲得的連續結果,假設已肯定一個閥值,好比說 0.6,大於這個值的實例劃歸爲正類,小於這個值則劃到負類中。若是減少閥值,減到0.5,當然能識別出更多的正類,也就是提升了識別出的正例佔全部正例 的比類,即TPR,但同時也將更多的負實例看成了正實例,即提升了FPR。爲了形象化這一變化,在此引入ROC。
Receiver Operating Characteristic,翻譯爲」接受者操做特性曲線」,夠拗口的。曲線由兩個變量1-specificity 和 Sensitivity繪製. 1-specificity=FPR,即假正類率。Sensitivity便是真正類率,TPR(True positive rate),反映了正類覆蓋程度。這個組合以1-specificity對sensitivity,便是以代價(costs)對收益 (benefits)。
此外,ROC曲線還能夠用來計算「均值平均精度」下表是一個邏輯迴歸獲得的結果。將獲得的實數值按大到小劃分紅10個個數 相同的部分。
其 正例數爲此部分裏實際的正類數。也就是說,將邏輯迴歸獲得的結 果按從大到小排列,假若之前10%的數值做爲閥值,即將前10%的實例都劃歸爲正類,6180個。其中,正確的個數爲4879個,佔全部正類的 4879/14084*100%=34.64%,即敏感度;另外,有6180-4879=1301個負實例被錯劃爲正類,佔全部負類的1301 /47713*100%=2.73%,即1-特異度。以這兩組值分別做爲x值和y值,在excel中做散點圖。