目標檢測評價指標

轉:https://blog.csdn.net/syoung9029/article/details/56276567
算法

 

召回率(Recall),精確率(Precision),平均正確率(AP),交除並(IoU)函數

 

摘要性能

在訓練YOLO v2的過程當中,系統會顯示出一些評價訓練效果的值,如Recall,IoU等等。爲了怕之後忘了,如今把本身對這幾種度量方式的理解記錄一下。 
這一文章首先假設一個測試集,而後圍繞這一測試集來介紹這幾種度量方式的計算方法。測試

大雁與飛機

假設如今有這樣一個測試集,測試集中的圖片只由大雁和飛機兩種圖片組成,以下圖所示: 
這裏寫圖片描述url

假設你的分類系統最終的目的是:能取出測試集中全部飛機的圖片,而不是大雁的圖片。spa

如今作以下的定義: 
True positives : 飛機的圖片被正確的識別成了飛機。 
True negatives: 大雁的圖片沒有被識別出來,系統正確地認爲它們是大雁。 
False positives: 大雁的圖片被錯誤地識別成了飛機。 
False negatives: 飛機的圖片沒有被識別出來,系統錯誤地認爲它們是大雁。.net

假設你的分類系統使用了上述假設識別出了四個結果,以下圖所示: 
這裏寫圖片描述3d

那麼在識別出的這四張照片中: 
True positives : 有三個,畫綠色框的飛機。 
False positives: 有一個,畫紅色框的大雁。blog

沒被識別出來的六張圖片中: 
True negatives : 有四個,這四個大雁的圖片,系統正確地沒有把它們識別成飛機。 
False negatives: 有兩個,兩個飛機沒有被識別出來,系統錯誤地認爲它們是大雁。圖片

Precision 與 Recall

Precision其實就是在識別出來的圖片中,True positives所佔的比率: 
這裏寫圖片描述
其中的n表明的是(True positives + False positives),也就是系統一共識別出來多少照片 。 
在這一例子中,True positives爲3,False positives爲1,因此Precision值是 3/(3+1)=0.75。 
意味着在識別出的結果中,飛機的圖片佔75%。

Recall 是被正確識別出來的飛機個數與測試集中全部飛機的個數的比值: 
這裏寫圖片描述
Recall的分母是(True positives + False negatives),這兩個值的和,能夠理解爲一共有多少張飛機的照片。 
在這一例子中,True positives爲3,False negatives爲2,那麼Recall值是 3/(3+2)=0.6。 
意味着在全部的飛機圖片中,60%的飛機被正確的識別成飛機.。

調整閾值

你也能夠經過調整閾值,來選擇讓系統識別出多少圖片,進而改變Precision 或 Recall 的值。 
在某種閾值的前提下(藍色虛線),系統識別出了四張圖片,以下圖中所示: 
這裏寫圖片描述
分類系統認爲大於閾值(藍色虛線之上)的四個圖片更像飛機。

咱們能夠經過改變閾值(也能夠看做上下移動藍色的虛線),來選擇讓系統識別能出多少個圖片,固然閾值的變化會致使Precision與Recall值發生變化。好比,把藍色虛線放到第一張圖片下面,也就是說讓系統只識別出最上面的那張飛機圖片,那麼Precision的值就是100%,而Recall的值則是20%。若是把藍色虛線放到第二張圖片下面,也就是說讓系統只識別出最上面的前兩張圖片,那麼Precision的值仍是100%,而Recall的值則增加到是40%。

下圖爲不一樣閾值條件下,Precision與Recall的變化狀況: 
這裏寫圖片描述

Precision-recall 曲線

若是你想評估一個分類器的性能,一個比較好的方法就是:觀察當閾值變化時,Precision與Recall值的變化狀況。若是一個分類器的性能比較好,那麼它應該有以下的表現:被識別出的圖片中飛機所佔的比重比較大,而且在識別出大雁以前,儘量多地正確識別出飛機,也就是讓Recall值增加的同時保持Precision的值在一個很高的水平。而性能比較差的分類器可能會損失不少Precision值才能換來Recall值的提升。一般狀況下,文章中都會使用Precision-recall曲線,來顯示出分類器在Precision與Recall之間的權衡。
這裏寫圖片描述
上圖就是分類器的Precision-recall 曲線,在不損失精度的條件下它能達到40%Recall。而當Recall達到100%時,Precision 下降到50%。

Approximated Average precision

相比較與曲線圖,在某些時候仍是一個具體的數值能更直觀地表現出分類器的性能。一般狀況下都是用 Average Precision來做爲這一度量標準,它的公式爲:
這裏寫圖片描述
在這一積分中,其中p表明Precision ,r表明Recall,p是一個以r爲參數的函數,That is equal to taking the area under the curve.

實際上這一積分極其接近於這一數值:對每一種閾值分別求(Precision值)乘以(Recall值的變化狀況),再把全部閾值下求得的乘積值進行累加。公式以下:
這裏寫圖片描述
在這一公式中,N表明測試集中全部圖片的個數,P(k)表示在能識別出k個圖片的時候Precision的值,而 Delta r(k) 則表示識別圖片個數從k-1變化到k時(經過調整閾值)Recall值的變化狀況。

在這一例子中,Approximated Average Precision的值 
=(1 * (0.2-0)) + (1 * (0.4-0.2)) + (0.66 * (0.4-0.4)) + (0.75 * (0.6-0.4)) + (0.6 * (0.6-0.6)) + (0.66 * (0.8-0.6)) + (0.57 * (0.8-0.8)) + (0.5 * (0.8-0.8)) + (0.44 * (0.8-0.8)) + (0.5 * (1-0.8)) = 0.782.

=(1 * 0.2) + (1 * 0.2) + (0.66 * 0) + (0.75 * 0.2) + (0.6 *0) + (0.66 * 0.2) + (0.57 *0) + (0.5 *0) + (0.44 *0) + (0.5 * 0.2) = 0.782.

經過計算能夠看到,那些Recall值沒有變化的地方(紅色數值),對增長Average Precision值沒有貢獻。

Interpolated average precision

不一樣於Approximated Average Precision,一些做者選擇另外一種度量性能的標準:Interpolated Average Precision。這一新的算法再也不使用P(k),也就是說,再也不使用當系統識別出k個圖片的時候Precision的值與Recall變化值相乘。而是使用:
這裏寫圖片描述
也就是每次使用在全部閾值的Precision中,最大值的那個Precision值與Recall的變化值相乘。公式以下: 
這裏寫圖片描述

下圖的圖片是Approximated Average Precision 與 Interpolated Average Precision相比較。 
須要注意的是,爲了讓特徵更明顯,圖片中使用的參數與上面所說的例子無關。 
這裏寫圖片描述
很明顯 Approximated Average Precision與精度曲線挨的很近,而使用Interpolated Average Precision算出的Average Precision值明顯要比Approximated Average Precision的方法算出的要高。

一些很重要的文章都是用Interpolated Average Precision 做爲度量方法,而且直接稱算出的值爲Average Precision 。PASCAL Visual Objects Challenge從2007年開始就是用這一度量制度,他們認爲這一方法能有效地減小Precision-recall 曲線中的抖動。因此在比較文章中Average Precision 值的時候,最好先弄清楚它們使用的是那種度量方式。

IoU

IoU這一值,能夠理解爲系統預測出來的框與原來圖片中標記的框的重合程度。 
計算方法即檢測結果Detection Result與 Ground Truth 的交集比上它們的並集,即爲檢測的準確率: 

 

以下圖所示: 
藍色的框是:GroundTruth 
黃色的框是:DetectionResult 
綠色的框是:DetectionResult ⋂GroundTruth
紅色的框是:DetectionResult ⋃GroundTruth

這裏寫圖片描述

 

 

轉:https://blog.csdn.net/linchunmian/article/details/79644300

 

1. PR曲線(Precision&Recall)

首先須要瞭解幾個概念。

True positive(TP): 預測爲positive ground truth爲True

True negative(TN): 預測爲positive 但ground truth 爲negative


False positive(FP): 預測爲positive 但ground truth 爲negative

False negative(FN): 預測爲negative ground truth也爲False

precision: 查準率,指預測爲positive中,ground truth是positive所佔的比例 (TP/(TP+FP)),該值越大越好,1爲理想狀態

recall:  查全率,指全部的True樣本中,預測爲positive所佔的比例(TP/(TP+FN)),該值越大越好,1爲理想狀態

F1-score: 將precision 和recall合成一個指標,越大越好

accuracy: 全部預測結果與實際結果同樣的樣本/全部樣本

FP Rate(FPR): false positive佔整個negative的比例,就是說本來是negative 預測爲positive的比例,越小越好

TP Rate(TPR): true positive 佔整個positive 的比例

PR曲線:(precision,recall)曲線,越凸向右上方效果越好

AP:PR曲線下的面積

AUC: Area Under the Curve 是一個抽象的概念,並不單指ROC曲線下的面積

經過計算每一個樣本的TP, FP, TN, FN的值,獲得每一個樣本對應的(P, R)值對,從而能夠繪製PR曲線圖。PR曲線的通常趨勢是向右上方凸起的一條曲線,最右上方凸起點成爲平衡點,該點的p、r座標值越大越好,表示檢測器性能在該點達到平衡狀態,既保證高精確度又保證高召回率。
此外,F1-score的計算公式爲F1 = 2 * p * r* (p+r) 

2. ROC曲線(receiver operating characteristic)

ROC曲線是一種描述靈敏度的評價指標。ROC曲線能夠經過計算樣本的真陽性率TPR和假陽性率FPR獲得,所以ROC曲線也叫作相關操做特徵曲線。與PR曲線相反,ROC    曲線的趨勢是向左上角凸起的一條曲線,以下圖。評價兩條ROC曲線的性能優劣,一般計算曲線下方包含的面積AUC,面積越大則表明檢測器性能越好。

 

 

3. MAP(Mean Average Precision), AP(Average Precision)

AP一般用於計算平均的檢測精度,用於衡量檢測器在每一個類別上的性能好壞;而MAP則更多用於評價多目標的檢測器性能,衡量檢測器在全部類別上的性能好壞,即獲得每一個類別的AP值後再取全部類別的平均值。假設N個樣本中有M個positive的正例,那麼咱們就會獲得M個recall值(1/M,2/M,3/M......M/M),對於每一個recall值r,咱們能夠計算出對應r'>r的最大的precision值,而後對這M個precision 值取平均即獲得最後的AP值。計算過程以下表所示:

 

 

此時的PR曲線爲:

 

相關文章
相關標籤/搜索