目標檢測二值量化——BiDet

BiDet

本文是清華大學等發表在 CVPR2020 上的針對一階段或兩階段檢測器的二值化工做。因爲其有限的表徵能力，網絡中的信息冗餘會形成大量的假正例，顯著地下降網絡性能。本文提出了一種二值神經網絡目標檢測方法BiDet， BiDet能經過冗餘去除來充分利用二值神經網絡在目標檢測中的表徵能力，經過去除假正例來提升檢測精度。具體來講，本文把信息瓶頸（the information bottleneck IB）準則來作目標檢測，限制高層（high-level）特徵圖的信息量，最大化特徵圖和目標檢測之間的互信息。與此同時，咱們經過learning sparse object priors對假正例移除，使網絡的後部專一於對信息檢測的預測。在PACAL VOC和COCO數據集上的實驗證實，本文的方法優於其餘目標檢測二值神經網絡。html

論文題目：BiDet: An Efficient Binarized Object Detector (CVPR2020)

論文連接：https://openaccess.thecvf.com/content_CVPR_2020/html/Wang_BiDet_An_Efficient_Binarized_Object_Detector_CVPR_2020_paper.html

代碼連接：https://github.com/ZiweiWangTHU/BiDet.git

動機

利用 XNOR-Net 的方法對目標檢測網絡直接進行二值化，網絡中的信息冗餘(如圖(c)和(d)的XNOR的信息內卷)會形成大量的假正例(如圖(a)所示)。node

爲了去除與任務無關的冗餘信息，最小化輸入圖像和高層次特徵圖（ the high-level feature maps ）之間的互信息，以此限制檢測器提取的信息量；最大化高層次特徵圖（ the high-level feature maps ）和目標檢測（location & classification）之間的互信息，以此讓檢測器保留更多和任務相關的信息。git

本文提出的方法 Bi-Det,檢測結果如圖 (b) 所示，相比於圖 (a) ,假正例大幅度減小，並且不損失目標正例的檢測準確性。圖(c)和圖(d)分別是訓練集和測試集的動態信息，橫座標是輸入圖像和高層次特徵圖之間的互信息；縱座標是高層次特徵圖和目標檢測任務之間的互信息。所以，和 XNOR-Net 相比，本文的方法移除了冗餘信息，性能較優。二值信息如何能有效的去除冗餘信息，而不損傷真正例是值得思考的一個問題。github

方法

信息瓶頸（IB）

信息瓶頸的目標是提取關於任務輸入的相關信息，所以 IB 準則在壓縮領域被普遍應用。IB 準則致力於最小化輸入和學習特徵之間的互信息，同時最大化特徵圖和任務的標準（groundtruth）之間的互信息。目標檢測任務從大的步驟上能夠看做爲馬爾可夫過程，如式子 (1) 的馬爾科夫鏈所示：web

其中， X表明輸入圖像，F 表明 backbone part 輸出的高級特徵圖，L 表明目標的定位,C 表明分類。c#

根據Markov鏈，IB準則的目標函數能夠寫成式子(2):微信

是 backbone part 的參數，是 detection part 的參數。是隨機變量 X 與 Y 之間的互信息。最小化圖像輸入和高層特徵圖之間的互信息，以此限制檢測器提取的信息量；最大化高層特徵圖和目標檢測部分的互信息，以此讓檢測器保留更多和任務相關的信息。最終結果保障去除了和目標檢測無關的冗餘信息。如上圖所示，IB準則能應用於 one-stage 和 two-stage detectors。根據互信息的定義，重寫式(2)：網絡

Detection part中的定位和分類是相互獨立的（二者在不一樣的網絡分支中）架構

表明anchor在水平和垂直方向的shift offset; 表明anchor的高和寬的scale offset。框架

-> ; -> ，表明 , 的第j列。

Learning Sparse Object Priors

因爲二值檢測網絡中大量的假正例（false positives）, Learing sparse object priors 在檢測部分可讓 detection part 致力於信息預測，有效減小假正例。

以 Faster R-CNN 爲例，Faster R-CNN 的核心是 RPN（Region Proposal Network）。RPN 的輸入爲特徵圖，輸出就是候選框集合,包括各候選框屬於前景或背景的機率以及位置座標，在 RPN 的輸出基礎上，對全部 anchor box 的前景置信度排序，挑選出前 Top-N 的框做爲預選框 proposal，接着 CNN 作進一步特徵提取，最後再進行位置迴歸和物體種類判斷。本文的 Learing sparse object priors 的目的就是減小上面提到的預選框proposal的數量。

基於 RPN，生成了候選框的集合 M，裏面的元素取值爲1或0。1表明該block mask爲前景，0表明該block mask爲背景。爲了獲得 sparse priors ,即用較少的 pridicted positives ,本文最小化block mask M 的 L1 範數。最小化的過程本質上是在減小置信度分數的信息熵。

其中，si 是第 i 個預測的前景物體的置信度分數。sparse priors 的實驗結果以下圖所示，最後經過NMS去除冗餘候選框。所以，輸出的前景候選框變得稀疏了，有利於detection part更好的預測信息。

綜上所述, BiDet的目標函數以下所示，其中 J1 表明經過信息瓶頸 IB 準則移除冗餘信息，充分利用 BNN 的信息表徵能力；J2 表明致力於稀疏化 object priors, 有利於 detection part 更好的預測信息。

其中是 false positive elimination 的超參數。

實驗

消融實驗

實驗對比

神經網絡二值量化——ReActNet

神經網絡低比特量化——TQT

神經網絡低比特量化——DSQ

神經網絡架構搜索——二值可微分搜索（BATS）

神經網絡架構搜索——可微分搜索（DARTS）

本文分享自微信公衆號 - AI異構（gh_ed66a0ffe20a）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。