作目標檢測，這6篇就夠了：CVPR 2020目標檢測論文盤點 - 知乎

CVPR 2020 會議上，有哪些目標檢測論文值得關注？

選自heartbeat，做者：Derrick Mwiti，機器之心編譯，參與：陳萍。git

目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法，如今咱們能夠輕鬆訓練計算機以高精度檢測出圖像中的多個對象。github

前不久結束的 CVPR 2020 會議在推進目標檢測領域發展方面作出了一些貢獻，本文就爲你們推薦其中 6 篇有價值的目標檢測論文。算法

論文清單網絡

A Hierarchical Graph Network for 3D Object Detection on Point Clouds
HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
Camouflaged Object Detection
Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
D2Det: Towards High-Quality Object Detection and Instance Segmentation

1. A Hierarchical Graph Network for 3D Object Detection on Point Clouds架構

論文地址：https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_A_Hierarchical_Graph_Network_for_3D_Object_Detection_on_Point_CVPR_2020_paper.pdf 框架

這項研究提出了一種基於圖卷積 (GConv) 的新型層次圖網絡 (HGNet)，它用於三維目標檢測任務，可直接處理原始點雲進而預測三維邊界框。HGNet 可以有效捕獲點之間的關係，並利用多級語義進行目標檢測。性能

具體而言，該研究提出了新的 shape-attentive GConv (SA-GConv)，它能經過建模點的相對幾何位置來描述物體的形狀，進而捕獲局部形狀特徵。基於 SA-GConv 的 U 形網絡捕獲多層次特徵，經過改進的投票模塊（voting module）將這些特徵映射到相同的特徵空間中，進而生成候選框（proposal）。學習

HGNet 主要包括三部分：編碼

基於 GConv 的 U 形網絡（GU-net）；
候選框生成器；
候選框推理模塊（ProRe Module）：使用全鏈接圖對候選框進行推理。

該研究提出的模型主要以 VoteNet 做爲 backbone，並基於它提出了一系列改進。由下圖能夠看出：spa

將 VoteNet 中的 PointNet++ 換成特徵捕捉能力更強的 GCN；
爲 up-sample 的多層中的每一層都接上 voting 模塊，整合多個尺度的特徵；
在 proposal 之間也使用 GCN 來加強特徵的學習能力。

實現細節

本文提出了 Shape-attentive Graph Convolutions（SA-GConv），而且將這個卷積同時用在了 down-sampling pathway 和 up-sampling pathway 中。

本文提出了一個 Proposal Reasoning Module，在 proposal 之間學習其特徵之間的交互。

不一樣模型在 SUN RGB-D V1 數據集上的實驗結果以下所示：

2. HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

論文地址：https://openaccess.thecvf.com/content_CVPR_2020/papers/Ye_HVNet_Hybrid_Voxel_Network_for_LiDAR_Based_3D_Object_Detection_CVPR_2020_paper.pdf

這篇論文提出了一種基於點雲的自動駕駛三維目標檢測 one-stage 網絡——混合體素網絡 (Hybrid Voxel Network, HVNet)，經過在點級別上混合不一樣尺度的體素特徵編碼器 (VFE) 獲得更好的體素特徵編碼方法，從而在速度和精度上獲得提高。

HVNet 採用的體素特徵編碼（VFE）方法包括如下三個步驟：

體素化：將點雲指定給二維體素網格；
體素特徵提取：計算網格相關的點級特徵，而後將其輸入到 PointNet 風格特徵編碼器；
投影：將點級特徵聚合爲體素級特徵，並投影到其原始網格。這就造成了一個僞圖像特徵圖。

該研究提出的 HVNet 架構包括：HVFE 混合體素特徵提取模塊；2D 卷積模塊；以及檢測模塊，用來輸出最後的預測結果。

HVNet 總體架構及 HVFE 架構參見下圖：

不一樣模型在 KITTI 數據集上得到的結果以下表所示：

3. Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

論文地址：https://openaccess.thecvf.com/content_CVPR_2020/papers/Shi_Point-GNN_Graph_Neural_Network_for_3D_Object_Detection_in_a_CVPR_2020_paper.pdf
項目地址：https://github.com/WeijingShi/Point-GNN

基於點雲的 3D 目標檢測具備很是重要的應用價值，尤爲是在自動駕駛領域。使用激光雷達傳感器得到的 3D 點雲數據描述了周圍環境，使得 3D 目標檢測可以比單純使用 RBG 攝像頭提供更多的目標信息（不只有位置信息，還有距離信息）。

該研究指出，以往使用 CNN 的方法處理點雲數據時每每須要在空間劃分 Grids，會出現大量的空白矩陣元素，並不適合稀疏點雲；近來出現的相似 PointNet 的方法對點雲數據進行分組和採樣，取得了不錯的結果，但計算成本太大。因而該研究提出一種新型 GNN 網絡——Point-GNN。

Point-GNN 方法主要分爲三個階段，以下圖所示：

圖構建：使用體素降採樣點雲進行圖構建；
GNN 目標檢測（T 次迭代）；
邊界框合併和評分。

如下是不一樣模型在 KITTI 數據集上得到的結果：

4. Camouflaged Object Detection

論文地址：https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Camouflaged_Object_Detection_CVPR_2020_paper.pdf
項目地址：https://github.com/DengPingFan/SINet/

這篇論文解決的問題是：如何檢測嵌入在周圍環境中的物體，即假裝目標檢測（camouflaged object detection，COD）。

此外，該研究還建立了一個名爲 COD10K 的新型數據集。它包含 10,000 張圖像，涵蓋許多天然場景中的假裝物體。該數據集具備 78 個類別，每張圖像均具有類別標籤、邊界框、實例級標籤和摳圖級（matting-level）標籤。

下圖展現了 COD10K 數據集中的樣本示例及其難點。

爲了解決假裝目標檢測問題，該研究提出了一種叫作搜索識別網絡（Search Identification Network，SINet）的 COD 框架。

該網絡有兩個主要模塊：

搜索模塊（SM），用於搜索假裝的物體；
識別模塊（IM），用於檢測該物體。

SINet 架構以下所示：

不一樣模型在多個數據集上的結果參見下表：

5. Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

論文地址：https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_Multi-Relation_Detector_CVPR_2020_paper.pdf

傳統的目標檢測算法須要大量數據標註才能訓練模型，而數據標註不但耗費人力，可能還會由於標註質量而影響訓練效果。

這篇論文提出了一種「小樣本」目標檢測網絡，旨在經過少許標註數據使模型有效檢測到從未見過的目標。

該方法的核心包括三點：Attention-RPN、Multi-Relation Detector 和 Contrastive Training strategy，利用小樣本 support set 和 query set 的類似性來檢測新的目標，同時抑制 background 中的錯誤檢測。

該團隊還貢獻了一個新的數據集，該數據集包含 1000 個類別，且具有高質量的標註。

該研究提出一個新型注意力網絡，能在 RPN 模塊和檢測器上學習 support set 和 query set 之間的匹配關係；下圖中的 weight shared network 有多個分支，能夠分爲兩類，一類用於 query set，另外一類用於 support set（support set 的分支能夠有多個，用來輸入不一樣的 support 圖像，圖中只畫了一個），處理 query set 的分支是 Faster RCNN 網絡。

該研究提出的網絡架構。

做者還提出用 Attention RPN 來過濾掉不屬於 support set 的目標。

如下是不一樣模型在 ImageNet 數據集上的實驗結果：

如下是基於一些數據集獲得的觀察結果：

6. D2Det: Towards High-Quality Object Detection and Instance Segmentation

論文地址： https://openaccess.thecvf.com/content_CVPR_2020/papers/Cao_D2Det_Towards_High_Quality_Object_Detection_and_Instance_Segmentation_CVPR_2020_paper.pdf
項目地址：https://github.com/JialeCao001/D2Det

這篇論文提出了一種提升定位精度和分類準確率的方法 D2Det，以提高目標檢測的效果。針對這兩項挑戰，該研究分別提出了 dense local regression（DLR）和 discriminative RoI pooling（DRP）兩個模塊。其中 DLR 與 anchor-free 方法 FCOS 的 detect loss 相似，DRP 則是利用了 deformable convolution 的思想，分別從第一階段和第二階段提取準確的目標特徵區域，進而得到相應的性能提高。具體方法流程以下圖所示：

在這兩個階段中，第一階段採用區域建議網絡（RPN），而第二階段採用分類和迴歸的方法，分類方法基於池化，局部迴歸則用於物體的定位。

如下是不一樣模型在 MS COCO 數據集上的結果：

計算機視覺頂會 CVPR 2020 提供了不少目標檢測等領域的研究論文，若是你想獲取更多論文信息，請點擊如下網址：https://openaccess.thecvf.com/CVPR2020。