BiDet
本文是清華大學等發表在 CVPR2020 上的針對一階段或兩階段檢測器的二值化工做。因爲其有限的表徵能力,網絡中的信息冗餘會形成大量的假正例,顯著地下降網絡性能。本文提出了一種二值神經網絡目標檢測方法BiDet, BiDet能經過冗餘去除來充分利用二值神經網絡在目標檢測中的表徵能力,經過去除假正例來提升檢測精度。具體來講,本文把信息瓶頸(the information bottleneck IB)準則來作目標檢測,限制高層(high-level)特徵圖的信息量,最大化特徵圖和目標檢測之間的互信息。與此同時,咱們經過learning sparse object priors對假正例移除,使網絡的後部專一於對信息檢測的預測。在PACAL VOC和COCO數據集上的實驗證實,本文的方法優於其餘目標檢測二值神經網絡。html
論文題目:BiDet: An Efficient Binarized Object Detector (CVPR2020) 論文連接:https://openaccess.thecvf.com/content_CVPR_2020/html/Wang_BiDet_An_Efficient_Binarized_Object_Detector_CVPR_2020_paper.html 代碼連接:https://github.com/ZiweiWangTHU/BiDet.git
動機
利用 XNOR-Net 的方法對目標檢測網絡直接進行二值化,網絡中的信息冗餘(如圖(c)和(d)的XNOR的信息內卷)會形成大量的假正例(如圖(a)所示)。node
爲了去除與任務無關的冗餘信息,最小化輸入圖像和高層次特徵圖( the high-level feature maps )之間的互信息,以此限制檢測器提取的信息量;最大化高層次特徵圖( the high-level feature maps )和目標檢測(location & classification)之間的互信息,以此讓檢測器保留更多和任務相關的信息。git
本文提出的方法 Bi-Det,檢測結果如圖 (b) 所示,相比於圖 (a) ,假正例大幅度減小,並且不損失目標正例的檢測準確性。圖(c)和圖(d)分別是訓練集和測試集的動態信息,橫座標是輸入圖像和高層次特徵圖之間的互信息;縱座標是高層次特徵圖和目標檢測任務之間的互信息。所以,和 XNOR-Net 相比,本文的方法移除了冗餘信息,性能較優。二值信息如何能有效的去除冗餘信息,而不損傷真正例是值得思考的一個問題。github
方法
信息瓶頸(IB)
信息瓶頸的目標是提取關於任務輸入的相關信息,所以 IB 準則在壓縮領域被普遍應用。IB 準則致力於最小化輸入和學習特徵之間的互信息,同時最大化特徵圖和任務的標準(groundtruth)之間的互信息。目標檢測任務從大的步驟上能夠看做爲馬爾可夫過程,如式子 (1) 的馬爾科夫鏈所示:web
其中, X表明輸入圖像,F 表明 backbone part 輸出的高級特徵圖,L 表明目標的定位,C 表明分類。c#
根據Markov鏈,IB準則的目標函數能夠寫成式子(2):微信
是 backbone part 的參數, 是 detection part 的參數。 是隨機變量 X 與 Y 之間的互信息。最小化圖像輸入和高層特徵圖之間的互信息,以此限制檢測器提取的信息量;最大化高層特徵圖和目標檢測部分的互信息,以此讓檢測器保留更多和任務相關的信息。最終結果保障去除了和目標檢測無關的冗餘信息。如上圖所示,IB準則能應用於 one-stage 和 two-stage detectors。根據互信息的定義,重寫式(2):網絡
Detection part中的定位和分類是相互獨立的(二者在不一樣的網絡分支中)架構
表明anchor在水平和垂直方向的shift offset; 表明anchor的高和寬的scale offset。框架
Learning Sparse Object Priors
因爲二值檢測網絡中大量的假正例(false positives), Learing sparse object priors 在檢測部分可讓 detection part 致力於信息預測,有效減小假正例。
以 Faster R-CNN 爲例,Faster R-CNN 的核心是 RPN(Region Proposal Network)。RPN 的輸入爲特徵圖,輸出就是候選框集合,包括各候選框屬於前景或背景的機率以及位置座標,在 RPN 的輸出基礎上,對全部 anchor box 的前景置信度排序,挑選出前 Top-N 的框做爲預選框 proposal, 接着 CNN 作進一步特徵提取,最後再進行位置迴歸和物體種類判斷。本文的 Learing sparse object priors 的目的就是減小上面提到的預選框proposal的數量。
基於 RPN,生成了候選框的集合 M,裏面的元素取值爲1或0。1表明該block mask爲前景,0表明該block mask爲背景。爲了獲得 sparse priors ,即用較少的 pridicted positives ,本文最小化block mask M 的 L1 範數。最小化的過程本質上是在減小置信度分數的信息熵。
其中,si 是第 i 個預測的前景物體的置信度分數。sparse priors 的實驗結果以下圖所示,最後經過NMS去除冗餘候選框。所以,輸出的前景候選框變得稀疏了,有利於detection part更好的預測信息。
綜上所述, BiDet的目標函數以下所示,其中 J1 表明經過信息瓶頸 IB 準則移除冗餘信息,充分利用 BNN 的信息表徵能力;J2 表明致力於稀疏化 object priors, 有利於 detection part 更好的預測信息。
其中 是 false positive elimination 的超參數。
實驗
消融實驗
實驗對比
神經網絡二值量化——ReActNet
神經網絡低比特量化——TQT
神經網絡低比特量化——DSQ
神經網絡架構搜索——二值可微分搜索(BATS)
神經網絡架構搜索——可微分搜索(DARTS)
本文分享自微信公衆號 - AI異構(gh_ed66a0ffe20a)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。