作目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點 - 知乎

CVPR 2020 會議上,有哪些目標檢測論文值得關注?

選自heartbeat,做者:Derrick Mwiti,機器之心編譯,參與:陳萍。git

目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法,如今咱們能夠輕鬆訓練計算機以高精度檢測出圖像中的多個對象。github

前不久結束的 CVPR 2020 會議在推進目標檢測領域發展方面作出了一些貢獻,本文就爲你們推薦其中 6 篇有價值的目標檢測論文。算法


論文清單網絡

  1. A Hierarchical Graph Network for 3D Object Detection on Point Clouds
  2. HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
  3. Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
  4. Camouflaged Object Detection
  5. Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
  6. D2Det: Towards High-Quality Object Detection and Instance Segmentation

1. A Hierarchical Graph Network for 3D Object Detection on Point Clouds架構

論文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_A_Hierarchical_Graph_Network_for_3D_Object_Detection_on_Point_CVPR_2020_paper.pdf 框架

這項研究提出了一種基於圖卷積 (GConv) 的新型層次圖網絡 (HGNet),它用於三維目標檢測任務,可直接處理原始點雲進而預測三維邊界框。HGNet 可以有效捕獲點之間的關係,並利用多級語義進行目標檢測。性能

具體而言,該研究提出了新的 shape-attentive GConv (SA-GConv),它能經過建模點的相對幾何位置來描述物體的形狀,進而捕獲局部形狀特徵。基於 SA-GConv 的 U 形網絡捕獲多層次特徵,經過改進的投票模塊(voting module)將這些特徵映射到相同的特徵空間中,進而生成候選框(proposal)。學習

HGNet 主要包括三部分:編碼

  • 基於 GConv 的 U 形網絡(GU-net);
  • 候選框生成器;
  • 候選框推理模塊(ProRe Module):使用全鏈接圖對候選框進行推理。

該研究提出的模型主要以 VoteNet 做爲 backbone,並基於它提出了一系列改進。由下圖能夠看出:spa

  • 將 VoteNet 中的 PointNet++ 換成特徵捕捉能力更強的 GCN;
  • 爲 up-sample 的多層中的每一層都接上 voting 模塊,整合多個尺度的特徵;
  • 在 proposal 之間也使用 GCN 來加強特徵的學習能力。

實現細節

本文提出了 Shape-attentive Graph Convolutions(SA-GConv),而且將這個卷積同時用在了 down-sampling pathway 和 up-sampling pathway 中。

本文提出了一個 Proposal Reasoning Module,在 proposal 之間學習其特徵之間的交互。

不一樣模型在 SUN RGB-D V1 數據集上的實驗結果以下所示:

2. HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

論文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Ye_HVNet_Hybrid_Voxel_Network_for_LiDAR_Based_3D_Object_Detection_CVPR_2020_paper.pdf

這篇論文提出了一種基於點雲的自動駕駛三維目標檢測 one-stage 網絡——混合體素網絡 (Hybrid Voxel Network, HVNet),經過在點級別上混合不一樣尺度的體素特徵編碼器 (VFE) 獲得更好的體素特徵編碼方法,從而在速度和精度上獲得提高。

HVNet 採用的體素特徵編碼(VFE)方法包括如下三個步驟:

  • 體素化:將點雲指定給二維體素網格;
  • 體素特徵提取:計算網格相關的點級特徵,而後將其輸入到 PointNet 風格特徵編碼器;
  • 投影:將點級特徵聚合爲體素級特徵,並投影到其原始網格。這就造成了一個僞圖像特徵圖。

該研究提出的 HVNet 架構包括:HVFE 混合體素特徵提取模塊;2D 卷積模塊;以及檢測模塊,用來輸出最後的預測結果。

HVNet 總體架構及 HVFE 架構參見下圖:

不一樣模型在 KITTI 數據集上得到的結果以下表所示:

3. Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

基於點雲的 3D 目標檢測具備很是重要的應用價值,尤爲是在自動駕駛領域。使用激光雷達傳感器得到的 3D 點雲數據描述了周圍環境,使得 3D 目標檢測可以比單純使用 RBG 攝像頭提供更多的目標信息(不只有位置信息,還有距離信息)。

該研究指出,以往使用 CNN 的方法處理點雲數據時每每須要在空間劃分 Grids,會出現大量的空白矩陣元素,並不適合稀疏點雲;近來出現的相似 PointNet 的方法對點雲數據進行分組和採樣,取得了不錯的結果,但計算成本太大。因而該研究提出一種新型 GNN 網絡——Point-GNN。

Point-GNN 方法主要分爲三個階段,以下圖所示:

  • 圖構建:使用體素降採樣點雲進行圖構建;
  • GNN 目標檢測(T 次迭代);
  • 邊界框合併和評分。

如下是不一樣模型在 KITTI 數據集上得到的結果:

4. Camouflaged Object Detection

這篇論文解決的問題是:如何檢測嵌入在周圍環境中的物體,即假裝目標檢測(camouflaged object detection,COD)。

此外,該研究還建立了一個名爲 COD10K 的新型數據集。它包含 10,000 張圖像,涵蓋許多天然場景中的假裝物體。該數據集具備 78 個類別,每張圖像均具有類別標籤、邊界框、實例級標籤和摳圖級(matting-level)標籤。

下圖展現了 COD10K 數據集中的樣本示例及其難點。

爲了解決假裝目標檢測問題,該研究提出了一種叫作搜索識別網絡(Search Identification Network,SINet)的 COD 框架。

該網絡有兩個主要模塊:

  • 搜索模塊(SM),用於搜索假裝的物體;
  • 識別模塊(IM),用於檢測該物體。

SINet 架構以下所示:

不一樣模型在多個數據集上的結果參見下表:

5. Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

論文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_Multi-Relation_Detector_CVPR_2020_paper.pdf

傳統的目標檢測算法須要大量數據標註才能訓練模型,而數據標註不但耗費人力,可能還會由於標註質量而影響訓練效果。

這篇論文提出了一種「小樣本」目標檢測網絡,旨在經過少許標註數據使模型有效檢測到從未見過的目標。

該方法的核心包括三點:Attention-RPN、Multi-Relation Detector 和 Contrastive Training strategy,利用小樣本 support set 和 query set 的類似性來檢測新的目標,同時抑制 background 中的錯誤檢測。

該團隊還貢獻了一個新的數據集,該數據集包含 1000 個類別,且具有高質量的標註。

該研究提出一個新型注意力網絡,能在 RPN 模塊和檢測器上學習 support set 和 query set 之間的匹配關係;下圖中的 weight shared network 有多個分支,能夠分爲兩類,一類用於 query set,另外一類用於 support set(support set 的分支能夠有多個,用來輸入不一樣的 support 圖像,圖中只畫了一個),處理 query set 的分支是 Faster RCNN 網絡。

該研究提出的網絡架構。

做者還提出用 Attention RPN 來過濾掉不屬於 support set 的目標。

如下是不一樣模型在 ImageNet 數據集上的實驗結果:

如下是基於一些數據集獲得的觀察結果:

6. D2Det: Towards High-Quality Object Detection and Instance Segmentation

這篇論文提出了一種提升定位精度和分類準確率的方法 D2Det,以提高目標檢測的效果。針對這兩項挑戰,該研究分別提出了 dense local regression(DLR)和 discriminative RoI pooling(DRP)兩個模塊。其中 DLR 與 anchor-free 方法 FCOS 的 detect loss 相似,DRP 則是利用了 deformable convolution 的思想,分別從第一階段和第二階段提取準確的目標特徵區域,進而得到相應的性能提高。具體方法流程以下圖所示:

在這兩個階段中,第一階段採用區域建議網絡(RPN),而第二階段採用分類和迴歸的方法,分類方法基於池化,局部迴歸則用於物體的定位。

如下是不一樣模型在 MS COCO 數據集上的結果:

計算機視覺頂會 CVPR 2020 提供了不少目標檢測等領域的研究論文,若是你想獲取更多論文信息,請點擊如下網址:https://openaccess.thecvf.com/CVPR2020

相關文章
相關標籤/搜索