第三十五節，目標檢測之YOLO算法詳解

時間 2019-11-18

標籤第三十五目標檢測 yolo 算法詳解简体版

原文原文鏈接

Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object detection. In: CVPR. (2016)算法

YOLO的全拼是You Only Look Once，顧名思義就是隻看一次，把目標區域預測和目標類別預測合二爲一，做者將目標檢測任務看做目標區域預測和類別預測的迴歸問題。該方法採用單個神經網絡直接預測物品邊界和類別機率，實現端到端的物品檢測。所以識別性能有了很大提高，達到每秒45幀，而在快速YOLO(Fast YOLO，卷積層更少)中，能夠達到每秒155幀。網絡

當前最好系統相比，YOLO目標區域定位偏差更大，可是背景預測的假陽性優於當前最好的方法。架構

1、引言

人類瞥了一眼圖像，當即知道圖像中的物體，它們在哪裏以及它們如何相互做用。人類視覺系統快速而準確，使咱們可以執行復雜的任務，好比汽車駕駛。框架

傳統的目標檢測系統利用分類器來執行檢測。爲了檢測對象，這些系統在測試圖片的不一樣位置不一樣尺寸大小採用分類器對其進行評估。如目標檢測系統採用deformable parts models (DPM)方法，經過滑動框方法提出目標區域，而後採用分類器來實現識別。近期的R-CNN類方法採用region proposal methods，首先生成潛在的bounding boxes，而後採用分類器識別這些bounding boxes區域。最後經過post-processing來去除重複bounding boxes來進行優化。這類方法流程複雜，存在速度慢和訓練困難的問題。
ide

咱們將目標檢測問題轉換爲直接從圖像中提取bounding boxes和類別機率的單個迴歸問題，只需一眼（you only look once，YOLO）便可檢測目標類別和位置。函數

YOLO簡潔明瞭：見下圖。 YOLO算法採用單個卷積神經網絡來預測多個bounding boxes和類別機率。與傳統的物體檢測方法相比，這種統一模型具備如下優勢：工具

YOLO檢測系統。用YOLO處理圖像簡單直接。咱們的系統（1）將輸入圖像調整爲448×448，（2）在圖像上運行單個卷積網絡，以及（3）由模型的置信度對所獲得的檢測進行閾值處理。佈局

很是快。YOLO預測流程簡單，速度很快。咱們的基礎版在Titan X GPU上能夠達到45幀/s；快速版能夠達到150幀/s。所以，YOLO能夠實現實時檢測。
YOLO採用全圖信息來進行預測。與滑動窗口方法和region proposal-based方法不一樣，YOLO在訓練和預測過程當中能夠利用全圖信息。Fast R-CNN檢測方法會錯誤的將背景中的斑塊檢測爲目標，緣由在於Fast R-CNN在檢測中沒法看到全局圖像。相對於Fast R-CNN，YOLO背景預測錯誤率低一半。
YOLO能夠學習到目標的歸納信息（generalizable representation），具備必定普適性。咱們採用天然圖片訓練YOLO，而後採用藝術圖像來預測。YOLO比其它目標檢測方法（DPM和R-CNN）準確率高不少。

在準確性上，YOLO算法仍然落後於最早進的檢測系統。雖然它能夠快速識別圖像中的對象，但它很難精肯定位某些對象，特別是小對象。 post

二統一檢測（Unified Detection）

咱們將目標檢測統一到一個神經網絡。咱們的網絡使用整個圖像中的特徵來預測每一個邊界框。它也是同時預測圖像的全部類的全部邊界框。這意味着咱們的網絡學習到的完整圖像和圖中全部的對象.YOLO設計可實現端到端訓練和實時的速度，同時保持較高的平均精度。性能

YOLO首先將圖像分爲S×S的格子。若是一個目標的中心落入格子，該格子就負責檢測該目標。每個網格中預測B個Bounding box 和置信值（confidence score）。這些置信度分數反映了該模型對盒子是否包含目標的信心，以及它預測盒子的準確程度。而後，咱們定義置信值爲：

若是沒有目標，置信值爲零。另外，咱們但願置信度分數等於預測框與真實值之間聯合部分的交集（IOU）。

每個bounding box包含5個值：x，y，w，h和confidence。（x，y）座標表示邊界框相對於網格單元邊界框的中心。寬度和高度是相對於整張圖像預測的。confidence表示預測的box與實際邊界框之間的IOU。每一個網格單元還預測C個 $C$

$C$ $C$

這些機率是以網格包含目標爲條件的，每一個網格單元咱們只預測的一組類別機率，而無論邊界框的的數量B時 $B$

在測試時，咱們乘以條件類機率和單個盒子的置信度預測：

這些分數編碼了該類出如今框中的機率以及預測框擬合目標的程度。。在PASCAL VOC數據集上評價時，咱們採用S=7,B=2，C=20（該數據集包含20個類別），最終預測結果爲7×7×30(B*5+C)的tensor。

模型。 咱們的系統將檢測建模爲迴歸問題。它將圖像分紅SxS的網絡，而且每一個網格單元預測B個邊界框，這些邊界框的置信度以及C個類別機率，這些預測被編碼爲SxSx（B*5+C）的張量。

一、網絡模型

咱們使用卷積神經網絡來實現YOLO算法，並在Pascal VOC檢測數據集上進行評估。網絡的初始卷積層從圖像中提取特徵，而全鏈接層用來預測輸出機率和座標。

咱們的網絡架構受到GoogLeNet圖像分類模型的啓發。咱們的網絡有24個卷積層，後面是2個全鏈接層。咱們使用1x1降維層，後面是3x3卷積層 $3 \times 3$

$3 \times 3$

架構。咱們的檢測網絡有24個卷積層，其次是2個全鏈接層。交替1x1卷 $1 \times 1$

咱們還訓練了快速版本的YOLO，旨在推進快速目標檢測的界限。快速YOLO使用具備較少卷積層（9層而不是24層）的神經網絡，在這些層中使用較少的濾波器。除了網絡規模以外，YOLO和Fast YOLO的全部訓練和測試參數都是相同的。

咱們網絡的最終輸出是7x7x30的 $7 \times 7 \times 30$

$7 \times 7 \times 30$

咱們在ImageNet 1000類競賽數據集上預訓練咱們的卷積層。對於預訓練，咱們使用上圖中的前20個卷積層，外加平均池化層和全鏈接層。咱們對這個網絡進行了大約一週的訓練，而且在ImageNet 2012驗證集上得到了單一裁剪 $88 %$

$88 %$

咱們優化了模型輸出中的平方和偏差。咱們使用平方和偏差，由於它很容易進行優化，可是它並不徹底符合咱們最大化平均精度的目標。分類偏差與定位偏差的權重是同樣的，這可能並不理想。另外，在每張圖像中，許多網格單元不包含任何對象。這將這些單元格的「置信度」分數推向零，一般壓倒了包含目標的單元格的梯度。這可能致使模型不穩定，從而致使訓練早期發散。

爲了改善這一點，咱們增長了邊界框座標預測損失，並減小了不包含目標邊界框的置信度預測損失。咱們使用兩個參數λ_coord和λ_noobj來完成這個工做。咱們設置λ_coord=5和λ_noobj=5。

平方和偏差也能夠在大盒子和小盒子中一樣加權偏差。咱們的錯誤指標應該反映出，大盒子小誤差的重要性不如小盒子小誤差的重要性。爲了部分解決這個問題，咱們直接預測邊界框寬度和高度的平方根，而不是寬度和高度。

YOLO每一個網格單元預測多個邊界框。在訓練時，每一個目標咱們只須要一個邊界框預測器來負責。咱們指定一個預測器「負責」，根據哪一個預測與真實值之間具備當前最高的IOU來預測目標。這致使邊界框預測器之間的專業化。每一個預測器能夠更好地預測特定大小，方向角，或目標的類別，從而改善總體召回率。

在訓練期間，咱們優化如下多部分損失函數：

其中1_i^obj表 $1_{i}^{obj}$ 邊界框預測器「負責」該預測(若是該單元真有目標，而且該邊界框IOU最大，則值爲1，否爲0)。

注意，若是目標存在於該網格單元中（前面討論的條件類別機率），則損失函數僅懲罰分類錯誤。若是預測器「負責」實際邊界框（即該網格單元中具備最高IOU的預測器），則它也僅懲罰邊界框座標錯誤。

0.9

10^{- 3}

爲了不過分擬合，咱們使用棄權和大量的數據加強。在第一個鏈接層以後，棄權層使用0.5的 $1_{i}^{obj}$

$1_{i}^{obj}$

就像在訓練中同樣，預測測試圖像的檢測只須要一次網絡評估。在Pascal VOC上，每張圖像上網絡預測98個邊界框和每一個框的類別機率。YOLO在測試時很是快，由於它只須要一次網絡評估，不像基於分類器的方法。

網格設計強化了邊界框預測中的空間多樣性。一般很明顯一個目標落在哪個網格單元中，而網絡只能爲每一個目標預測一個邊界框。然而，一些大的目標或靠近多個網格單元邊界的目標能夠被多個網格單元很好地定位。非極大值抑制能夠用來修正這些多重檢測。對於R-CNN或DPM而言，性能不是關鍵的，非最大抑制會增長2%-3%的 $1_{i}^{obj}$

$1_{i}^{obj}$

$1_{i}^{obj}$
$1_{i}^{obj}$
$1_{i}^{obj}$

$1_{i}^{obj}$

目標檢測是計算機視覺中的核心問題。檢測流程一般從輸入圖像上（Haar，SIFT ，HOG ，卷積特徵）提取一組魯棒特徵開始。而後，分類器或定位器被用來識別特徵空間中的目標。這些分類器或定位器在整個圖像上或在圖像中的一些子區域上以滑動窗口的方式運行。咱們將YOLO檢測系統與幾種頂級檢測框架進行比較，突出了關鍵的類似性和差別性。

可變形部件模型。可變形零件模型（DPM）使用滑動窗口方法進行目標檢測。DPM使用不相交的流程來提取靜態特徵，對區域進行分類，預測高評分區域的邊界框等。咱們的系統用單個卷積神經網絡替換全部這些不一樣的部分。網絡同時進行特徵提取，邊界框預測，非極大值抑制和上下文推理。代替靜態特徵，網絡內嵌地訓練特徵併爲檢測任務優化它們。咱們的統一架構致使了比DPM更快，更準確的模型。
R-CNN。R-CNN及其變種使用區域提名而不是滑動窗口來查找圖像中的目標。選擇性搜索產生潛在的邊界框，卷積網絡提取特徵，SVM對邊界框進行評分，線性模型調整邊界框，非極大值抑制消除重複檢測。這個複雜流程的每一個階段都必須獨立地進行精確調整，所獲得的系統很是慢，測試時每張圖像須要超過40秒。

YOLO與R-CNN有一些類似之處。每一個網格單元提出潛在的邊界框並使用卷積特徵對這些框進行評分。可是，咱們的系統對網格單元提出進行了空間限制，這有助於緩解對同一目標的屢次檢測。咱們的系統還提出了更少的邊界框，每張圖像只有98個，而選擇性搜索則只有2000個左右。最後，咱們的系統將這些單獨的組件組合成一個單一的，共同優化的模型。

其它快速檢測器。Fast和Faster的R-CNN經過共享計算和使用神經網絡替代選擇性搜索來提出區域加速R-CNN框架。雖然它們提供了比R-CNN更快的速度和更高的準確度，但二者仍然不能達到實時性能。

許多研究工做集中在加快DPM流程上。它們加速HOG計算，使用級聯，並將計算推進到GPU上。可是，實際上只有30Hz的DPM能夠實時運行。

YOLO不是試圖優化大型檢測流程的單個組件，而是徹底拋棄流程，被設計爲快速檢測。

像人臉或行人等單類別的檢測器能夠高度優化，由於他們必須處理更少的變化。YOLO是一種通用的檢測器，能夠學習同時檢測多個目標。

Deep MultiBox。與R-CNN不一樣，Szegedy等人訓練了一個卷積神經網絡來預測感興趣區域，而不是使用選擇性搜索。MultiBox還能夠經過用單類預測替換置信度預測來執行單目標檢測。然而，MultiBox沒法執行通用的目標檢測，而且仍然只是一個較大的檢測流程中的一部分，須要進一步的圖像塊分類。YOLO和MultiBox都使用卷積網絡來預測圖像中的邊界框，可是YOLO是一個完整的檢測系統。
OverFeat。Sermanet等人訓練了一個卷積神經網絡來執行定位，並使該定位器進行檢測。OverFeat高效地執行滑動窗口檢測，但它仍然是一個不相交的系統。OverFeat優化了定位，而不是檢測性能。像DPM同樣，定位器在進行預測時只能看到局部信息。OverFeat不能推斷全局上下文，所以須要大量的後處理來產生連貫的檢測。
MultiGrasp。咱們的工做在設計上相似於Redmon等的抓取檢測。咱們對邊界框預測的網格方法是基於MultiGrasp系統抓取的迴歸分析。然而，抓取檢測比目標檢測任務要簡單得多。MultiGrasp只須要爲包含一個目標的圖像預測一個能夠抓取的區域。沒必要估計目標的大小，位置或目標邊界或預測目標的類別，只找到適合抓取的區域。YOLO預測圖像中多個類別的多個目標的邊界框和類別機率。

四實驗

首先，咱們在PASCAL VOC 2007上比較YOLO和其它的實時檢測系統。爲了理解YOLO和R-CNN變種之間的差別，咱們探索了YOLO和R-CNN性能最高的版本之一Fast R-CNN在VOC 2007上錯誤率。根據不一樣的偏差曲線，咱們顯示YOLO能夠用來從新評估Fast R-CNN檢測，並減小背景假陽性帶來的錯誤，從而顯著提高性能。咱們還展現了在VOC 2012上的結果，並與目前最早進的方法比較了mAP。最後，在兩個藝術品數據集上咱們顯示了YOLO能夠比其它檢測器更好地泛化到新領域。

一、與其餘實時系統的比較

目標檢測方面的許多研究工做都集中在快速制定標準檢測流程上。然而，只有Sadeghi等實際上產生了一個實時運行的檢測系統（每秒30幀或更好）。咱們將YOLO與DPM的GPU實現進行了比較，其在30Hz或100Hz下運行。雖然其它的努力沒有達到實時性的里程碑，咱們也比較了它們的相對mAP和速度來檢查目標檢測系統中精度——性能權衡。
Fast YOLO是PASCAL上最快的目標檢測方法；據咱們所知，它是現有的最快的目標檢測器。具備52.7%mAP，實時檢測的精度是之前工做的兩倍以上。YOLO將mAP推到63.4%同時保持了實時性能。
咱們還使用VGG-16訓練YOLO。這個模型比YOLO更準確，但也比它慢得多。對於依賴於VGG-16的其它檢測系統來講，它是比較有用的，但因爲它比實時的YOLO更慢，本文的其它部分將重點放在咱們更快的模型上。
Fastest DPM能夠在不犧牲太多mAP的狀況下有效地加速DPM，但仍然會將實時性能下降2倍。與神經網絡方法相比，DPM相對低的檢測精度也受到限制。
R-CNN Minus R用靜態邊界框提出取代選擇性搜索。雖然速度比R-CNN更快，但仍然不能實時，而且因爲沒有好的邊界框提出，準確性受到了嚴重影響。
Fast R-CNN加快了R-CNN的分類階段，可是仍然依賴選擇性搜索，每張圖像須要花費大約2秒來生成邊界框提出。所以，它具備很高的mAP，可是0.5的fps仍離實時性很遠。
Faster R-CNN用神經網絡替代了選擇性搜索來提出邊界框，相似於Szegedy等。在咱們的測試中，他們最精確的模型達到了7fps，而較小的，不太精確的模型以18fps運行。VGG-16版本的Faster R-CNN要高出10mAP，但比YOLO慢6倍。Zeiler-Fergus的Faster R-CNN只比YOLO慢了2.5倍，但也不太準確。

Pascal VOC 2007上的實時系統。比較快速檢測器的性能和速度。快速YOLO是Pascal VOC檢測記錄中速度最快的檢測器，其精度仍然是其它實時檢測器的兩倍。YOLO比快速版本更精確10mAP，同時在速度上仍保持實時性。

二、VOC 2007錯誤率分析

爲了進一步檢查YOLO和最早進的檢測器之間的差別，咱們詳細分析了VOC 2007的結果。咱們將YOLO與Fast R-CNN進行比較，由於Fast R-CNN是PASCAL上性能最高的檢測器之一而且它的檢測代碼是可公開獲得的。

咱們使用Hoiem等人的方法和工具。對於測試時的每一個類別，咱們看這個類別的前N個預測。每一個預測或者是正確的，或者根據錯誤類型進行分類：

Correct：正確的類別並且IOU>0.5
Localization：正確的類別,0.1<IOU<0.5
Similar：類別類似，IOU>0.1
Other：類別錯誤，IOU>0.1
Background：任何IOU<0.1的目標

下圖顯示了在全部的20個類別上每種錯誤類型平均值的分解圖。

偏差分析：Fast R-CNN vs. YOLO。這張圖顯示了各類類別的前N個預測中定位錯誤和背景錯誤的百分比（N = #表示目標在那個類別中）。

YOLO努力地正肯定位目標。定位錯誤佔YOLO錯誤的大多數，比其它錯誤源加起來都多。Fast R-CNN使定位錯誤少得多，但背景錯誤更多。它的檢測的13.6%是不包含任何目標的誤報。Fast R-CNN比YOLO預測背景檢測的可能性高出近3倍。 $13.6 %$

三、結合Fast R-CNN和YOLO

YOLO比Fast R-CNN的背景誤檢要少得多。經過使用YOLO消除Fast R-CNN的背景檢測，咱們得到了顯著的性能提高。對於R-CNN預測的每一個邊界框，咱們檢查YOLO是否預測一個相似的框。若是是這樣，咱們根據YOLO預測的機率和兩個盒子之間的重疊來對這個預測進行提高。

最好的Fast R-CNN模型在VOC 2007測試集上達到了71.8%的mAP。當與YOLO結合時，其mAP增長了3.2%達到了75%，咱們也嘗試將最好的Fast R-CNN模型與其它幾個版本的Fast R-CNN結合起來。這些模型組合產生了0.3%到0.6%之間的小增幅。

VOC 2007模型組合實驗。咱們檢驗了各類模型與Fast R-CNN最佳版本結合的效果。Fast R-CNN的其它版本只提供很小的好處，而YOLO則提供了顯著的性能提高。

來自YOLO的提高不只僅是模型組合的副產品，由於組合不一樣版本的Fast R-CNN幾乎沒有什麼好處。相反，正是由於YOLO在測試時出現了各類各樣的錯誤，因此在提升Fast R-CNN的性能方面很是有效。

遺憾的是，這個組合並無從YOLO的速度中受益，由於咱們分別運行每一個模型，而後結合結果。可是，因爲YOLO速度如此之快，與Fast R-CNN相比，不會增長任何顯著的計算時間。

四、VOC 2012結果

在VOC 2012測試集上，YOLO得分爲57.9%mAP,這低於現有的最新技術，接近於使用VGG-16的原始R-CNN，見表3。咱們的系統與其最接近的競爭對手相比，在小目標上努力。在bottle，sheep和tv/monitor等類別上，YOLO的得分比R-CNN或Feature Edit低8%-10%，然而，在cat和train等其它類別上YOLO實現了更高的性能。

PASCAL VOC 2012排行榜。截至2015年11月6日，YOLO與完整comp4（容許外部數據）公開排行榜進行了比較。顯示了各類檢測方法的平均精度均值和每類的平均精度。YOLO是惟一的實時檢測器。Fast R-CNN + YOLO是評分第四高的方法，比Fast R-CNN提高了2.3%。

咱們聯合的Fast R-CNN + YOLO模型是性能最高的檢測方法之一。Fast R-CNN從與YOLO的組合中得到了2.3% $2.3 %$