仿照上篇博文對於混淆矩陣、ROC和AUC指標的探討,本文簡要討論機器學習二分類問題中的混淆矩陣、PR以及AP評估指標;實際上,(ROC,AUC)與(PR,AP)指標對具備某種類似性。機器學習
設定一個機器學習問題情境:給定一些腫瘤患者樣本,構建一個分類模型來預測腫瘤是良性仍是惡性,顯然這是一個二分類問題。
本文中,將良性腫瘤視爲正類標籤(可能在具體實踐中更爲關注惡性腫瘤,不過這並不影響技術上的操做)。
當分類模型選定之後,將其在測試數據集上進行評估,分別能夠獲得如下評估指標:性能
TP表示預測爲良性,真實狀況是良性的樣例數;
FN表示預測爲惡性,真實狀況是良性的樣例數;
FP表示預測爲良性,真實狀況是惡性的樣例數;
TN表示預測爲惡性,真實狀況是惡性的樣例數;
以上四類數據構成混淆矩陣。學習
在混淆矩陣的基礎上,進一步地定義兩個指標。測試
precision表示,預測爲正的樣本中有多少是真正的正樣本;精準率強調對某類樣本識別的準確性。blog
recall表示,樣本中的正例有多少被預測正確了;召回率強調對某類樣本識別的全面性。ci
precision,recall分別反映分類器對某一類樣本鑑別能力的兩個方面;一般,這兩個指標呈現互斥關係,即一個指標高了每每會導致另外一指標下降。io
須要明確的是,P和R是創建在類別明確的預測結果之上的,即分類模型明確地指出待預測樣本的類別。
然而,在二分類問題(0,1)中,通常模型最後的輸出是一個機率值,表示結果是1的機率。此時須要肯定一個閾值,若模型的輸出機率超過閾值,則歸類爲1;若模型的輸出機率低於閾值,則歸類爲0。
不一樣的閾值會致使分類的結果不一樣,也就是混淆矩陣有差,P和TR也就不一樣。
當閾值從0開始慢慢移動到1的過程,就會造成不少對(precision,recall)的值,將它們畫在座標系上,就是所謂的PR曲線了。基礎
獲得PR曲線後,就能夠計算曲線下方的面積,計算出來的面積就是AP值。
通常而言,AP越大,模型的性能越好。im