圖像分割也是一項有意思的研究領域,它的目的是把圖像中各種不同物體給用不同顏色分割出來,如下圖所示,其平均精度(mIoU,即預測區域和實際區域交集除以預測區域和實際區域的並集),也從最開始的FCN模型(圖像語義分割全連接網絡,該論文獲得計算機視覺頂會CVPR2015的最佳論文的)的62.2%,到DeepLab框架的72.7%,再到牛津大學的CRF as RNN的74.7%。該領域是一個仍在進展的領域,仍舊有很大的進步空間。
A Review on Deep Learning Techniques Applied to Semantic Segmentation:原文鏈接
爲何需要語義分割系統的評價標準?
速度或運行時間是一個非常有價值的度量,因爲大多數系統需要保證推理時間可以滿足硬實時的需求。某些情況下,知曉系統的訓練時間是非常有用的,但是這通常不是非常明顯,除非其特別慢。在某種意義上說,提供方法的確切時間可能不是非常有意義,因爲執行時間非常依賴硬件設備及後臺實現,致使一些比較是無用的。
然而,出於重用和幫助後繼研究人員的目的,提供系統運行的硬件的大致描述及執行時間是有用的。這可以幫助他人評估方法的有效性,及在保證相同環境測試最快的執行方法。
內存是分割方法的另一個重要的因素。儘管相比執行時間其限制較鬆,內存可以較爲靈活地獲得,但其仍然是一個約束因素。在某些情況下,如片上操作系統及機器人平臺,其內存資源相比高性能服務器並不寬裕。即使是加速深度網絡的高端圖形處理單元(GPU),內存資源也相對有限。以此來看,在運行時間相同的情況下,記錄系統運行狀態下內存佔用的極值和均值是及其有價值的。
圖像分割中通常使用許多標準來衡量算法的精度。這些標準通常是像素精度及IoU的變種,以下我們將會介紹常用的幾種逐像素標記的精度標準。爲了便於解釋,假設如下:共有k+1個類(從L0到Lk,其中包含一個空類或背景),pij表示本屬於類i但被預測爲類j的像素數量。即,pii表示真正的數量,而pij pji則分別被解釋爲假正和假負,儘管兩者都是假正與假負之和。
Mean Intersection over Union(MIoU,均交併比):爲語義分割的標準度量。其計算兩個集合的交集和並集之比,在語義分割的問題中,這兩個集合爲真實值(ground truth)和預測值(predicted segmentation)。這個比例可以變形爲正真數(intersection)比上真正、假負、假正(並集)之和。在每個類上計算IoU,之後平均。
Frequency Weighted Intersection over Union(FWIoU,頻權交併比):爲MIoU的一種提升,這種方法根據每個類出現的頻率爲其設置權重。
如下圖所示,橢圓A代表真實值,橢圓B代表預測值。橙色部分爲A與B的交集,即真正(預測爲1,真實值爲1)的部分,綠色部分表示假負(預測爲0,真實爲1)的部分,黃色表示假正(預測爲1,真實爲0)的部分,兩個橢圓之外的白色區域表示真負(預測爲0,真實值爲0)的部分。表示綠色+橙色+黃色爲A與B的並集。
這部分是基礎知識,熟悉的可直接跳過
如圖所示,集合A:真實值;集合B:預測值。
針對預測值和真實值之間的關係,我們可以將樣本分爲4類:
真正值(TP):預測值爲1,真實值爲1;橙色,A∩B
真負值(TN):預測值爲0,真實值爲0;白色,~(A∪B)
假正值(FP):預測值爲1,真實值爲0;黃色,B-(A∩B)
假負值(FN):預測值爲0,真實值爲1;綠色,A-(A∩B)
# 爲方便記憶,可以這樣理解:
# TP:T(預測對了true) P(預測爲正樣本positive);真的正值,說明被預測爲正樣本,預測是真的,即真實值爲正樣本
# TN:T(預測對了true) P(預測爲負樣本negative);真的負值,說明被預測爲負樣本,預測是真的,即真實值爲負樣本
# FP:T(預測錯了false)P(預測爲正樣本positive);假的正直:說明被預測爲正樣本,但預測是假的,即真實值爲負樣本
# FN:T(預測錯了false)P(預測爲負樣本negative);假的負值,說明被預測爲負樣本,但預測是假的,即真實值爲正樣
召回率: 正確率:
針對預測樣本而言,預測爲正例的樣本中真正正例的比例:
預測爲正的有兩種:
1、正樣本被預測爲正 TP
2、負樣本被預測爲正 FP
所以精確率:precesion = TP/(TP+FP) 其中分母預測爲正樣本數量。
針對原來的樣本而言,表示樣本中有多少正例被預測正確了(預測爲正例的真是整理佔所有真實正例的比例):
1、原來的正樣本被預測爲正樣本 TP
2、原來的正樣本被預測爲負樣本 FN
所以召回率爲:racall = TP/(TP+FN) 其中分母表示原來樣本中的正樣本數量。
▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶▶
圖像分割中通常有很多中衡量標準,也有很多中版本的pixel-accuracy 和IoU,這裏我們介紹目前最常用的幾種。爲了方便解釋,我們重述下定義:假設有k+1個類別(從L0到Lk包括一個背景或者空類 別)Pij爲類別i的像素被預測爲類別j的個數,換句話說,也就是Pii就是被正確分類(TP)的像素個數,Pij和Pji通常被解釋爲FP和FN,儘管兩者都是假正和假負之和。
像素精確度(pixel accuracy,PA)
這是最簡單的指標,用來計算被正確分類的像素個數和總像素數之間的比例:
平均像素精確度(Mean pixel Accuracy,MPA),這是在PA基礎上做了微整提升,爲類別內像素正確分類概率的平均值:
加權交併比(Frequency Weighted Intersection over Union,FWIoU)
這是在MIoU上的基礎上做稍微的提升,對每一個類根據出現的頻率爲其設置權重:
從第二個等號已經可以看出,乘法的第一個乘法因子的分母爲全部的像素個數;乘法的第二項中每一項的分子中,第二個乘法因子(P00+P00+P01+...+P0k)表示在真實值中(GT),該類別(此處爲0)的所有像素個數;
因此第三個等號整理後,兩者的比例P00+P01+...+01+...+P0k∑ki=0∑kj=0Pj=