目標檢測二值量化——BiDet

BiDet

本文是清華大學等發表在 CVPR2020 上的針對一階段或兩階段檢測器的二值化工做。因爲其有限的表徵能力,網絡中的信息冗餘會形成大量的假正例,顯著地下降網絡性能。本文提出了一種二值神經網絡目標檢測方法BiDet, BiDet能經過冗餘去除來充分利用二值神經網絡在目標檢測中的表徵能力,經過去除假正例來提升檢測精度。具體來講,本文把信息瓶頸(the information bottleneck IB)準則來作目標檢測,限制高層(high-level)特徵圖的信息量,最大化特徵圖和目標檢測之間的互信息。與此同時,咱們經過learning sparse object priors對假正例移除,使網絡的後部專一於對信息檢測的預測。在PACAL VOC和COCO數據集上的實驗證實,本文的方法優於其餘目標檢測二值神經網絡。html

  • 論文題目:BiDet: An Efficient Binarized Object Detector (CVPR2020)
  • 論文連接:https://openaccess.thecvf.com/content_CVPR_2020/html/Wang_BiDet_An_Efficient_Binarized_Object_Detector_CVPR_2020_paper.html
  • 代碼連接:https://github.com/ZiweiWangTHU/BiDet.git

動機

利用 XNOR-Net 的方法對目標檢測網絡直接進行二值化,網絡中的信息冗餘(如圖(c)和(d)的XNOR的信息內卷)會形成大量的假正例(如圖(a)所示)。node

爲了去除與任務無關的冗餘信息,最小化輸入圖像和高層次特徵圖( the high-level feature maps )之間的互信息,以此限制檢測器提取的信息量;最大化高層次特徵圖( the high-level feature maps )和目標檢測(location & classification)之間的互信息,以此讓檢測器保留更多和任務相關的信息。git

目標檢測上的信息冗餘

本文提出的方法 Bi-Det,檢測結果如圖 (b) 所示,相比於圖 (a) ,假正例大幅度減小,並且不損失目標正例的檢測準確性。圖(c)和圖(d)分別是訓練集和測試集的動態信息,橫座標是輸入圖像和高層次特徵圖之間的互信息;縱座標是高層次特徵圖和目標檢測任務之間的互信息。所以,和 XNOR-Net 相比,本文的方法移除了冗餘信息,性能較優。二值信息如何能有效的去除冗餘信息,而不損傷真正例是值得思考的一個問題。github

方法

信息瓶頸(IB)

信息瓶頸的目標是提取關於任務輸入的相關信息,所以 IB 準則在壓縮領域被普遍應用。IB 準則致力於最小化輸入和學習特徵之間的互信息,同時最大化特徵圖和任務的標準(groundtruth)之間的互信息。目標檢測任務從大的步驟上能夠看做爲馬爾可夫過程,如式子 (1) 的馬爾科夫鏈所示:web

其中, X表明輸入圖像,F 表明 backbone part 輸出的高級特徵圖,L 表明目標的定位,C 表明分類。c#

目標檢測基本框架

根據Markov鏈,IB準則的目標函數能夠寫成式子(2):微信

是 backbone part 的參數, 是 detection part 的參數。 是隨機變量 X 與 Y 之間的互信息。最小化圖像輸入和高層特徵圖之間的互信息,以此限制檢測器提取的信息量;最大化高層特徵圖和目標檢測部分的互信息,以此讓檢測器保留更多和任務相關的信息。最終結果保障去除了和目標檢測無關的冗餘信息。如上圖所示,IB準則能應用於 one-stage 和 two-stage detectors。根據互信息的定義,重寫式(2):網絡

Detection part中的定位和分類是相互獨立的(二者在不一樣的網絡分支中)架構

表明anchor在水平和垂直方向的shift offset; 表明anchor的高和寬的scale offset。框架

-> ; ->   表明 , 的第j列。


Learning Sparse Object Priors

因爲二值檢測網絡中大量的假正例(false positives), Learing sparse object priors 在檢測部分可讓 detection part 致力於信息預測,有效減小假正例。

以 Faster R-CNN 爲例,Faster R-CNN 的核心是 RPN(Region Proposal Network)。RPN 的輸入爲特徵圖,輸出就是候選框集合,包括各候選框屬於前景或背景的機率以及位置座標,在 RPN 的輸出基礎上,對全部 anchor box 的前景置信度排序,挑選出前 Top-N 的框做爲預選框 proposal, 接着 CNN 作進一步特徵提取,最後再進行位置迴歸和物體種類判斷。本文的 Learing sparse object priors 的目的就是減小上面提到的預選框proposal的數量

Faster R-CNN RPN

基於 RPN,生成了候選框的集合 M,裏面的元素取值爲1或0。1表明該block mask爲前景,0表明該block mask爲背景。爲了獲得 sparse priors ,即用較少的 pridicted positives ,本文最小化block mask M 的 L1 範數。最小化的過程本質上是在減小置信度分數的信息熵。

其中,si 是第 i 個預測的前景物體的置信度分數。sparse priors 的實驗結果以下圖所示,最後經過NMS去除冗餘候選框。所以,輸出的前景候選框變得稀疏了,有利於detection part更好的預測信息。

sparse priors的實驗結果

綜上所述, BiDet的目標函數以下所示,其中 J1 表明經過信息瓶頸 IB 準則移除冗餘信息,充分利用 BNN 的信息表徵能力;J2 表明致力於稀疏化 object priors, 有利於 detection part 更好的預測信息。

其中  是 false positive elimination 的超參數。

實驗

消融實驗

參數消融分析:最優參數選擇爲: =0.2 ;  =10

實驗對比

檢測效果對比
實驗結果對比


神經網絡二值量化——ReActNet


神經網絡低比特量化——TQT


神經網絡低比特量化——DSQ


神經網絡架構搜索——二值可微分搜索(BATS)


神經網絡架構搜索——可微分搜索(DARTS)



本文分享自微信公衆號 - AI異構(gh_ed66a0ffe20a)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索