點擊上方「機器學習與生成對抗網絡」,關注"星標"git
獲取有趣、好玩的前沿乾貨!web
連接:https://medium.com/@jonathan_hui/yolov4-c9901eaa8e61
前段時間,忽然發佈的YOLOv4成了計算機視覺領域一大熱點新聞。這個目標檢測任務的SOTA模型究竟有何創新?這篇解讀文章爲你一一拆解。算法
目標檢測在近幾年開始發展成熟,但即使如此,競爭依舊激烈。以下所示,YOLOv4 宣稱已經實現了當前最前沿技術的準確度,同時還能維持較高的處理幀率。使用 Tesla V100 GPU,在 MS COCO 數據集上以接近 65 FPS 的推理速度,YOLOv4 實現了 43.5% AP (65.7% AP₅₀)的準確度。但對於目標檢測而言,高準確度早已不是惟一的目標。咱們還但願邊緣設備也能流暢地運行這些模型。所以,如何使用低成本硬件實時地處理輸入視頻也成爲了一個重要的研究方向。
YOLOv4 的開發歷程頗有意思,其中評估、修改和整合了不少有趣的新技術。並且其也優化了計算效率,使檢測器在單個 GPU 上也能很好地完成訓練。
Bag of freebies (BoF) 與 Bag of specials (BoS)
爲了提高準確度,能夠針對訓練過程進行一些優化,好比數據加強、類別不平衡、成本函數、軟標註…… 這些改進不會影響推理速度,可被稱爲「Bag of freebies」。另外還有一些改進可稱爲「bag of specials」,僅需在推理時間方面作少量犧牲,就能得到優良的性能回報。這類改進包括增大感覺野、使用注意力機制、集成跳過鏈接(skip-connection)或 FPN 等特性、使用非極大值抑制等後處理方法。本文將探討特徵提取器和頸部的設計方式以及那些好用的 BoF 和 BoS 改進策略。
爲了提高準確度,咱們可經過提升網絡深度來擴展感覺野和增大模型複雜度。同時,爲了下降訓練難度,還可應用跳過鏈接。咱們還能夠進一步延伸這一律念,即便用高度互連的層。
密集模塊(Dense Block)包含多個卷積層,其中每一層 H_i 都由批歸一化、ReLU 與以後的卷積構成。H_i 的輸入不只包含前一層的輸出,還包含以前全部層的輸出以及原始輸入,即 x_₀, x_₁, …, x_{i-1}。下圖中每一個 H_i 都輸出 4 個特徵圖。所以,在每一層,特徵圖的數量都增長 4 倍——增加率。
而後,經過組合多個密集模塊與其間的過渡層(由卷積和池化構成),能夠構建出 DenseNet。
CSPNet 將密集模塊的輸入特徵圖分爲了兩部分。第一部分 x_₀’ 會繞過密集模塊,成爲下個過渡層的輸入的一部分。第二部分 x_₀’’ 則會經過密集模塊,以下圖所示。
這種新設計經過將輸入分爲兩部分而下降了計算複雜度——此時僅有一部分輸入會通過密集模塊。
YOLOv4 使用了上面的 CSP 與下面的 Darknet-53 做爲特徵提取的骨幹。
相比於基於 ResNet 的設計,CSPDarknet53 模型的目標檢測準確度更高,不過 ResNet 的分類性能更好一些。可是,藉助後文將討論的 Mish 和其它技術,CSPDarknet53 的分類準確度能夠獲得提高。所以,YOLOv4 最終選擇了 CSPDarknet53。
目標檢測器由用於特徵提取的骨幹部分(backbone)和用於目標檢測的頭部(head,下圖最右邊的模塊)構成。而爲了檢測不一樣大小的目標,須要使用一種分層結構,使得頭部可探測不一樣空間分辨率的特徵圖。
爲了讓輸入頭部的信息更豐富,在輸入頭部前,會未來自自底向上和自上而下的數據流按逐元素的方式相加或相連。所以,頭部的輸入將包含來自自底向上數據流的豐富空間信息以及來自自上而下數據流的豐富語義信息。該系統的這一部分稱爲頸部(neck)。下面更詳細地談談這一設計。
YOLOv3 採用了與 FPN 相似的方法來實現不一樣大小層次的目標檢測預測。
在針對特定尺寸大小進行預測時,FPN 會對自上而下的數據流進行上採樣(2 倍),並將其與自底向上的相鄰層相加(見下圖)。獲得的結果會被傳遞給一個 3×3 的卷積核,以減小上採樣僞影以及爲頭部建立下圖中的特徵圖 P4。
SPP 應用了略有不一樣的策略來檢測不一樣尺寸大小的目標,即便用一個空間金字塔池化層替代了最後的池化層(在最後的卷積層以後)。其特徵圖在空間上分紅了 m×m 個 bin,其中 m 能夠分別爲 一、二、4 等值。而後針對每一個通道,爲每一個 bin 應用一次最大池化。這會造成一個長度固定的表徵,而後可使用 FC 層對該表徵進行進一步的分析。
許多基於 CNN 的模型都包含 FC 層,所以只能接受指定尺寸的輸入圖像。相對而言,SPP 可以使用不一樣大小的圖像。然而,也還存在不包含 FC 層的技術,好比全卷積網絡(FCN);這些技術能夠接受不一樣尺寸的圖像。對於空間信息很是重要的圖像分割等任務而言,這類設計尤其重要。所以,對於 YOLO,並沒必要需將 2D 特徵圖轉化爲固定大小的 1D 向量。
YOLO 中使用的 SPP 通過修改,以保留輸出的空間尺寸大小。並且還在大小爲 1×一、5×五、9×九、13×13 等的滑動核(sliding kernel)應用了最大池化。空間尺寸大小得以保留。而後未來自不一樣核大小的特徵圖鏈接起來做爲輸出。
早期的深度學習的模型設計相對簡單。每一層的輸入都來自其上一層。更前面的層會提取局部的紋理和圖案信息,並構建出後續層所需的語義信息。可是,隨着網絡向右側推動,微調優化預測結果時所需的局部信息可能會丟失。
在後來的深度學習開發中,層之間的互連方式變得更加複雜。DenseNet 在這方面達到了極致。其中每一層都鏈接了其前面的全部層。
在 FPN 中,來自自底向上和自上而下數據流的鄰近層的信息會結合到一塊兒。
層之間信息的流動方式變成了模型設計中須要考慮的又一關鍵事項。
下圖是用於目標檢測的路徑聚合網絡(PAN)。其中,自底向上的路徑獲得加強,使得低層信息更容易傳播到頂部。在 FPN 中,局部空間信息會向上傳播,如紅色箭頭所示。儘管圖中可能沒有展現清楚,但這條紅色路徑穿過了大約 100 多層。PAN 引入了一個捷徑路徑(綠色路徑),其僅需 10 層左右就能抵達頂部的 N₅ 層。這個短迴路概念使得頂層也能獲取到細粒度的局部信息。
可是,YOLOv4 並無將鄰近層加到一塊兒,而是將特徵圖鏈接到一塊兒。
在 FPN 中,不一樣尺寸大小的目標是分開獨立檢測的。這可能會致使出現重複的預測結果,並且沒法利用來自其它特徵圖的信息。PAN 最先使用了逐元素最大運算將這些信息融合到一塊兒(這裏再也不詳述相關細節)。
注意力已經在深度學習設計中獲得了普遍的應用。SAM 會爲輸入特徵圖分別應用最大池化和平均池化,從而獲得兩個特徵圖集合。其結果會被送入一個卷積層,以後再由一個 sigmoid 函數建立出空間注意力。
這個空間注意力掩碼再被應用於輸入特徵,從而輸出通過優化的特徵圖。
YOLOv4 使用了一種修改版的 SAM,其中沒有使用最大池化和平均池化。
YOLOv4 使用修改版的 SPP、PAN 和 SAM 逐步實現 / 替換了 FPN 概念。
用於骨幹部分的 Bag of freebies (BoF)
用於 YOLOv4 骨幹部分的 BoF 特徵包括:
CutMix 和 Mosaic 數據加強微信
DropBlock 正則化網絡
類別標籤平滑化架構
Cutout 數據加強會移除圖像的部分區域(見下圖)。這會迫使模型在執行分類時不過於相信特定的特徵。可是,若是圖像的某部分充滿了無用信息,則這種操做就浪費了。CutMix 的作法則不一樣,其是將圖像的一部分剪切下來再粘貼到另外一張圖像上。其基本真值標籤會根據補丁的面積比例進行調整,好比狗的部分佔 0.6,貓的部分佔 0.4。
從概念上講,CutMix 在目標的可能組成成分方面有更寬廣的視角。裁減掉的部分會迫使模型學習使用不一樣的特徵組合進行分類。這可避免信心太高。由於是用另外一張圖像替代該區域,因此圖像中的信息量和訓練效率都不會受到顯著的影響。
Mosaic 這種數據加強方法是將 4 張訓練圖像組合成一張來進行訓練(而非 CutMix 中的 2 張)。這讓模型在非慣例的環境中能更好地執行目標檢測。此外,因爲每一個 mini-batch 都包含圖像的較多變體(4×),所以在估計均值和方差時,對較大 mini-batch 的需求會下降。
在全鏈接層中,咱們可經過丟棄一些鏈接來迫使模型學習不一樣的特徵,而不是過於依賴少許特徵。可是,這可能不適用於卷積層。相鄰的位置可能高度相關。因此即便丟棄一些像素(如中部的圖所示),仍然能夠檢測出空間信息。DropBlock 正則化基於相似的概念,但適用於卷積層。
不過 DropBlock 丟棄的不是各個像素,而是大小爲 block_size × block_size 的一個像素塊。
每當你以爲本身徹底正確時,你可能只是想錯了。若是一個預測結果的置信度爲 100%,可能只是說明模型記憶了這個數據,而非學習了什麼東西。標籤平滑化將預測結果的目標上界調整至了一個更低的值,好比 0.9。而後在計算損失時,模型會以這個值爲目標,而不是 1.0。這一方法可緩解過擬合問題。
p = tf.placeholder(tf.float32, shape=[None, 10])feed_dict = { p: [[0, 0, 0, 0.9, 0, 0, 0, 0, 0, 0]] }d_real_loss = tf.nn.sigmoid_cross_entropy_with_logits( labels=p, logits=logits_real_image)
用於骨幹部分的 Bag of Specials(BoS)
Mish 激活app
交叉階段部分鏈接(CSP)less
多輸入加權的殘差鏈接(MiWRC)機器學習
其中一元或二元算子有不少不一樣的候選函數,好比餘弦函數。在選用這些函數時,咱們能夠隨機猜想,而後基於不一樣的任務(好比分類)和數據集來評估對應模型的表現。最終,咱們能夠選出能讓模型表現最好的激活函數。
使用此方法並進行實驗,結果發現了下面這個新激活函數 Swish,其表現優於 ReLU 以及其它許多激活函數。
Mish 是另外一個與 ReLU 和 Swish 很類似的激活函數。Mish 的論文(arXiv:1908.08681)宣稱使用 Mish 的深度網絡在許多不一樣數據集上的表現都更優。
爲 CSPDarknet53 和檢測器使用 Mish,YOLOv4 的兩個準確度都得到了提高。
過去幾年裏,研究者很關注應該向網絡層輸入哪些特徵圖。有時候,咱們會突破僅使用以前一層的傳統方法。
如今,更重要的是層的鏈接方式,尤爲是目標檢測器中層的鏈接方式。前面已經討論過 FPN 和 PAN 示例。下圖中的 d 展現了另外一種頸部設計 BiFPN,其論文(arXiv:1911.09070)宣稱 BiFPN 在準確度與效率的權衡方面表現更好。
YOLOv4 比較了其與 EfficientDet 的表現,然後者被認爲是目前最早進的技術之一。咱們來看看這種技術。以下所示,EfficientDet 以 EfficientNet 做骨幹,以 BiFPN 爲頸部。
爲便參照,下面給出了基於 MBConv 層構建的 EfficientNet 的架構,這些層由反向殘差模塊組成。
正如其論文(arXiv:1801.04381)中提到的那樣,這種反向殘差模塊的構成方式爲:
第一層稱爲逐深度卷積,其經過爲每一個輸入通道應用單個卷積過濾器來執行輕量級的過濾。
第二層是一個 1×1 卷積,稱爲逐點卷積,負責經過計算輸入通道的線性組合來構建新特徵。
假設輸入的維度爲 hᵢ × wᵢ × dᵢ。
則其會應用 dᵢ 個 k × k 的卷積過濾器——每一個通道一個。
而後其會爲全部通道應用 1×1 卷積過濾器,獲得大小爲 hᵢ × wᵢ × dⱼ 的輸出。
所以,總計算複雜度爲:
在許多機器學習和深度學習問題中,咱們都要學習輸入的低維表徵。咱們會經過建立「信息」瓶頸來提取數據的核心信息。這會迫使咱們發現最重要的信息,這正是學習的核心原理。遵循這一原理,反向殘差模塊以低維表徵爲輸入,而後使用卷積(線性運算)和非線性運算對其進行操做。可是,ReLU 等非線性部分面臨着一大問題:非線性運算會不成比例地拉伸或壓縮某些區域。在發生這樣的壓縮時,輸入可能會映射到一樣的區域 / 點。舉個例子,ReLU 可能會將通道摺疊進這片低維空間中,從而致使信息不可避免地丟失。正如其論文中寫道:
移除窄小層中的非線性特性是很重要的,這樣才能維持表徵能力。
爲了解決這一問題,咱們可對維度(通道的數量)進行臨時的擴展。咱們但願當咱們的通道數量較多時,在通過非線性運算以後,信息仍可能保存於某些通道之中。下面給出了反向殘差模塊的一些細節:
能夠看到,低維表徵首先被擴展到了 t_k 個通道。而後,使用輕量的 3 × 3 逐深度卷積對其進行過濾。在該模塊的最後,特徵又會被約減回低維。當其保持在高維空間中時,就加入非線性運算。
該模塊的起始處和終點之間添加了一個殘差鏈接。下面左圖是傳統的殘差模塊,右圖是這裏描述的反向殘差模塊。
理解 EfficientDet 的核心概念是頗有趣的。但 EfficientDet 在 YOLOv4 上的主要貢獻是多輸入加權的殘差鏈接。在 EfficientDet 論文中,能夠觀察到不一樣分辨率下不一樣的輸入特徵,它們對輸出特徵的貢獻也不相等。但在以前的討論中,咱們無差異地添加了這些特徵。在 EfficientDet 中,在構建輸出時,輸入特徵的加權是各不相同的:
其中 wᵢ 的訓練和學習方式與其它可訓練參數同樣。
用於檢測器的 Bag of freebies (BoF)
CIoU-loss
編輯器
CmBN
DropBlock 正則化
Mosaic 數據加強
自對抗訓練
消除網格敏感度
爲單個基本真值使用多個錨
餘弦退火調度器
最優超參數
隨機訓練形狀
損失函數能爲咱們提供如何調整權重以下降成本的信號。因此在預測結果錯誤時,咱們指望其能爲咱們提供前進的方向。但在使用 IoU 且基本真值框與預測結果不重疊時,這卻沒法實現。假設有兩個預測結果與基本真值都不重疊,則 IoU 損失函數沒法肯定哪一個結果更好——即使其中一個結果可能與基本真值更接近。
Generalized IoU(GIoU)經過將該損失優化爲如下形式而解決了這一問題:
但這個損失函數一般會首先擴展其預測邊界框,直到其與基本真值區域有重疊。而後它會縮小以增大 IoU。相比於理論上的迭代次數需求,這個過程實際須要更多迭代次數。
首先,引入 Distance-IoU Loss(DIoU):
其引入了一個新的目標以減小兩個框的中心點之間的距離。
最後,引入 Complete IoU Loss(CIoU)以便:
增大基本真值框與預測框之間的重疊面積;
最小化它們的中心點之間的距離;
維持框的長寬比的一致性。
原始的批歸一化會收集小批量數據內樣本的均值和方差,以白化(whiten)層輸入。可是,若是小批量數據規模很小,則這些估計結果將具備很高的噪聲。一種解決方案是在許多小批量數據上估計它們。可是,因爲每次迭代中權重都會變化,所以在這些權重下收集的統計數據可能會在新的權重下變得不許確。單純地求平都可能出錯。幸運的是,權重的改變是逐漸發生的。交叉迭代批歸一化(CBM)使用瞭如下的調整來基於 k 個以前的迭代估計這些統計數據。
CmBN 是一個通過修改的選項,其僅收集單個批次內小批量數據之間的統計數據。
SAT 是一種數據加強技術。其首先會在訓練樣本上執行一次前向經過。使用傳統方法時,咱們會在反向傳播過程當中調整模型的權重來提高檢測器檢測圖像中目標的能力。但這裏所採樣的方向卻相反。它會修改圖像,使其能在最大程度上下降檢測器的性能,即建立以當前模型爲目標的對抗攻擊——即便新圖像可能在人眼看來與原來的同樣。接下來,使用這張新圖像與原始的邊界框和類別標籤來訓練該模型。這有助於提高模型的泛化能力並下降過擬合。
對於 bₓ=cₓ 和 bₓ=cₓ+1 的狀況,咱們須要 tₓ 分別具備很大的負值和正值。但咱們能夠將 σ 與一個比例因子(>1.0)相乘,從而更輕鬆地實現這一目標。如下是對源代碼的修改:
若是 IoU(ground truth, anchor) > IoU threshold,則爲單個基本真值使用多個錨點。(注:做者沒有更多地說明該方法在 YOLOv4 中的做用。)
餘弦調度會根據一個餘弦函數來調整學習率。首先,較大的學習率會以較慢的速度減少。而後在中途時,學習的減少速度會變快,最後學習率的減少速度又會變得很慢。
這張圖展現了學習率衰減的方式(下圖中還應用了學習率預熱)及其對 mAP 的影響。可能看起來並不明顯,這種新的調度方法的進展更爲穩定,而不是在停滯一段時間後又取得進展。
進化算法是一種有根據的猜想方法。其遵循「適者生存」的概念。舉個例子,若是咱們隨機選擇 100 組超參數。而後使用它們訓練 100 個模型。以後,咱們從中選出表現最好的 10 個模型。對於每一個被選中的模型,都根據原始版本建立 10 個超參數略有不一樣的變體版本。再使用這些新的超參數從新訓練模型,再次選出其中表現最好的。隨着咱們不斷迭代,咱們應該能夠找到超參數的最佳集合。另外,咱們也能夠一開始使用默認超參數,而後再執行突變。正如其論文(arXiv: 2004.10934)中寫道:
遺傳算法使用 YOLOv3-SPP,根據 GIoU 損失進行訓練,併爲 min-val 5k 數據集搜索 300 epoch。咱們爲遺傳算法實驗採用了搜索獲得的學習率 0.0026一、動量 0.94九、用於分配基本真值的 IoU 閾值 0.213 以及損失歸一化算子 0.07。
許多單階段目標檢測器都是用固定的輸入圖像形狀進行訓練的。爲了提高泛化能力,咱們可使用不一樣的圖像大小訓練模型。(YOLO 中的多尺度訓練。)
用於檢測器的 Bag of Specials(BoS)
Mish 激活
修改版 SPP 模塊
修改版 SAM 模塊
修改版 PAN 路徑聚合模塊
DIoU-NMS
非極大值抑制(NMS)會過濾掉其它預測同一目標的邊界框並保留置信度最高的邊界框。
DIoU(前面討論過)用做 NMS 的一個因子。該方法在抑制冗餘的邊界框時會使用 IoU 和兩個邊界框的中心點之間的距離。這能使得模型能更加穩健地應對有遮擋的狀況。
儘管本文介紹的都是已被整合進 YOLOv4 中的技術,但 YOLOv4 也投入了很大努力來評估其它技術。最後,展現一下 YOLOv4 考慮過的技術列表:
原文連接:https://medium.com/@jonathan_hui/yolov4-c9901eaa8e61
猜您喜歡:
超100篇!CVPR 2020最全GAN論文梳理彙總!
附下載 | 《Python進階》中文版
附下載 | 經典《Think Python》中文版
附下載 | 《Pytorch模型訓練實用教程》
附下載 | 最新2020李沐《動手學深度學習》
附下載 | 《可解釋的機器學習》中文版
附下載 |《TensorFlow 2.0 深度學習算法實戰》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理彙總!
附下載 |《計算機視覺中的數學方法》分享