CVPR 2020 會議上,有哪些目標檢測論文值得關注?
選自heartbeat,做者:Derrick Mwiti,機器之心編譯,參與:陳萍。git
目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法,如今咱們能夠輕鬆訓練計算機以高精度檢測出圖像中的多個對象。github
前不久結束的 CVPR 2020 會議在推進目標檢測領域發展方面作出了一些貢獻,本文就爲你們推薦其中 6 篇有價值的目標檢測論文。算法
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
論文清單網絡
- A Hierarchical Graph Network for 3D Object Detection on Point Clouds
- HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
- Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
- Camouflaged Object Detection
- Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
- D2Det: Towards High-Quality Object Detection and Instance Segmentation
1. A Hierarchical Graph Network for 3D Object Detection on Point Clouds架構
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
這項研究提出了一種基於圖卷積 (GConv) 的新型層次圖網絡 (HGNet),它用於三維目標檢測任務,可直接處理原始點雲進而預測三維邊界框。HGNet 可以有效捕獲點之間的關係,並利用多級語義進行目標檢測。性能
具體而言,該研究提出了新的 shape-attentive GConv (SA-GConv),它能經過建模點的相對幾何位置來描述物體的形狀,進而捕獲局部形狀特徵。基於 SA-GConv 的 U 形網絡捕獲多層次特徵,經過改進的投票模塊(voting module)將這些特徵映射到相同的特徵空間中,進而生成候選框(proposal)。學習
HGNet 主要包括三部分:編碼
- 基於 GConv 的 U 形網絡(GU-net);
- 候選框生成器;
- 候選框推理模塊(ProRe Module):使用全鏈接圖對候選框進行推理。
該研究提出的模型主要以 VoteNet 做爲 backbone,並基於它提出了一系列改進。由下圖能夠看出:spa
- 將 VoteNet 中的 PointNet++ 換成特徵捕捉能力更強的 GCN;
- 爲 up-sample 的多層中的每一層都接上 voting 模塊,整合多個尺度的特徵;
- 在 proposal 之間也使用 GCN 來加強特徵的學習能力。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
實現細節
本文提出了 Shape-attentive Graph Convolutions(SA-GConv),而且將這個卷積同時用在了 down-sampling pathway 和 up-sampling pathway 中。
本文提出了一個 Proposal Reasoning Module,在 proposal 之間學習其特徵之間的交互。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
不一樣模型在 SUN RGB-D V1 數據集上的實驗結果以下所示:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
2. HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
這篇論文提出了一種基於點雲的自動駕駛三維目標檢測 one-stage 網絡——混合體素網絡 (Hybrid Voxel Network, HVNet),經過在點級別上混合不一樣尺度的體素特徵編碼器 (VFE) 獲得更好的體素特徵編碼方法,從而在速度和精度上獲得提高。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
HVNet 採用的體素特徵編碼(VFE)方法包括如下三個步驟:
- 體素化:將點雲指定給二維體素網格;
- 體素特徵提取:計算網格相關的點級特徵,而後將其輸入到 PointNet 風格特徵編碼器;
- 投影:將點級特徵聚合爲體素級特徵,並投影到其原始網格。這就造成了一個僞圖像特徵圖。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
該研究提出的 HVNet 架構包括:HVFE 混合體素特徵提取模塊;2D 卷積模塊;以及檢測模塊,用來輸出最後的預測結果。
HVNet 總體架構及 HVFE 架構參見下圖:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
不一樣模型在 KITTI 數據集上得到的結果以下表所示:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
3. Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
- 論文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Shi_Point-GNN_Graph_Neural_Network_for_3D_Object_Detection_in_a_CVPR_2020_paper.pdf
- 項目地址:https://github.com/WeijingShi/Point-GNN
基於點雲的 3D 目標檢測具備很是重要的應用價值,尤爲是在自動駕駛領域。使用激光雷達傳感器得到的 3D 點雲數據描述了周圍環境,使得 3D 目標檢測可以比單純使用 RBG 攝像頭提供更多的目標信息(不只有位置信息,還有距離信息)。
該研究指出,以往使用 CNN 的方法處理點雲數據時每每須要在空間劃分 Grids,會出現大量的空白矩陣元素,並不適合稀疏點雲;近來出現的相似 PointNet 的方法對點雲數據進行分組和採樣,取得了不錯的結果,但計算成本太大。因而該研究提出一種新型 GNN 網絡——Point-GNN。
Point-GNN 方法主要分爲三個階段,以下圖所示:
- 圖構建:使用體素降採樣點雲進行圖構建;
- GNN 目標檢測(T 次迭代);
- 邊界框合併和評分。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
如下是不一樣模型在 KITTI 數據集上得到的結果:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
4. Camouflaged Object Detection
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
- 論文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Camouflaged_Object_Detection_CVPR_2020_paper.pdf
- 項目地址:https://github.com/DengPingFan/SINet/
這篇論文解決的問題是:如何檢測嵌入在周圍環境中的物體,即假裝目標檢測(camouflaged object detection,COD)。
此外,該研究還建立了一個名爲 COD10K 的新型數據集。它包含 10,000 張圖像,涵蓋許多天然場景中的假裝物體。該數據集具備 78 個類別,每張圖像均具有類別標籤、邊界框、實例級標籤和摳圖級(matting-level)標籤。
下圖展現了 COD10K 數據集中的樣本示例及其難點。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
爲了解決假裝目標檢測問題,該研究提出了一種叫作搜索識別網絡(Search Identification Network,SINet)的 COD 框架。
該網絡有兩個主要模塊:
- 搜索模塊(SM),用於搜索假裝的物體;
- 識別模塊(IM),用於檢測該物體。
SINet 架構以下所示:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
不一樣模型在多個數據集上的結果參見下表:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
5. Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
傳統的目標檢測算法須要大量數據標註才能訓練模型,而數據標註不但耗費人力,可能還會由於標註質量而影響訓練效果。
這篇論文提出了一種「小樣本」目標檢測網絡,旨在經過少許標註數據使模型有效檢測到從未見過的目標。
該方法的核心包括三點:Attention-RPN、Multi-Relation Detector 和 Contrastive Training strategy,利用小樣本 support set 和 query set 的類似性來檢測新的目標,同時抑制 background 中的錯誤檢測。
該團隊還貢獻了一個新的數據集,該數據集包含 1000 個類別,且具有高質量的標註。
該研究提出一個新型注意力網絡,能在 RPN 模塊和檢測器上學習 support set 和 query set 之間的匹配關係;下圖中的 weight shared network 有多個分支,能夠分爲兩類,一類用於 query set,另外一類用於 support set(support set 的分支能夠有多個,用來輸入不一樣的 support 圖像,圖中只畫了一個),處理 query set 的分支是 Faster RCNN 網絡。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
做者還提出用 Attention RPN 來過濾掉不屬於 support set 的目標。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
如下是不一樣模型在 ImageNet 數據集上的實驗結果:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
如下是基於一些數據集獲得的觀察結果:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
6. D2Det: Towards High-Quality Object Detection and Instance Segmentation
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
- 論文地址: https://openaccess.thecvf.com/content_CVPR_2020/papers/Cao_D2Det_Towards_High_Quality_Object_Detection_and_Instance_Segmentation_CVPR_2020_paper.pdf
- 項目地址:https://github.com/JialeCao001/D2Det
這篇論文提出了一種提升定位精度和分類準確率的方法 D2Det,以提高目標檢測的效果。針對這兩項挑戰,該研究分別提出了 dense local regression(DLR)和 discriminative RoI pooling(DRP)兩個模塊。其中 DLR 與 anchor-free 方法 FCOS 的 detect loss 相似,DRP 則是利用了 deformable convolution 的思想,分別從第一階段和第二階段提取準確的目標特徵區域,進而得到相應的性能提高。具體方法流程以下圖所示:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
在這兩個階段中,第一階段採用區域建議網絡(RPN),而第二階段採用分類和迴歸的方法,分類方法基於池化,局部迴歸則用於物體的定位。
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
如下是不一樣模型在 MS COCO 數據集上的結果:
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
計算機視覺頂會 CVPR 2020 提供了不少目標檢測等領域的研究論文,若是你想獲取更多論文信息,請點擊如下網址:https://openaccess.thecvf.com/CVPR2020。