CVPR 2020 | 港中文提出3D目標檢測新框架DSGN

©PaperWeekly 原創 · 做者｜張承灝html

學校｜中科院自動化所碩士生git

研究方向｜雙目深度估計github

本文介紹的是香港中文大學賈佳亞團隊在 CVPR 2020 上提出的 3D 目標檢測新框架——深度立體幾何網絡（Deep Stereo Geometry Network，DSGN）。c#

經過構造一種可導的 3D 幾何體來實現 3D 目標檢測，從而減少了基於圖像的方法和基於 LiDAR 的方法之間的鴻溝。這是第一個一階段的，基於雙目的 3D 目標檢測器，在 KITTI 3D 目標檢測榜單上超越以往基於雙目的 3D 目標檢測方法。微信

論文標題：DSGN: Deep Stereo Geometry Network for 3D Object Detection網絡

論文地址：https://arxiv.org/abs/2001.03398框架

開源代碼：https://github.com/chenyilun95/DSGNsvg

背景
函數

根據特徵的表示方法不一樣，3D 目標檢測器主要分爲基於圖像的 3D 檢測器和基於 LiDAR 的 3D 檢測器。性能

基於 LiRAD 的 3D 檢測器：主要分爲基於體素的方法和基於點雲的方法；
基於圖像的 3D 檢測器：主要分爲基於深度估計的方法和基於 3D 特徵的方法；

因爲 LiDAR 傳感器可以捕捉準確的 3D 信息，所以基於 LiDAR 的 3D 檢測器準確率較高。其不足之處在於 LiDAR 設備笨重且價格昂貴，獲得是帶有激光束的稀疏分辨率的數據。

相比之下，視頻攝像機要便宜不少，而且可以產生更加稠密的分辨率。這種基於圖像的方法一般依靠單目或者雙目深度估計，可是準確率仍然沒法與基於 LiDAR 的方法相媲美。

基於深度估計的方法將 3D 目標檢測分爲兩步：深度估計和目標檢測，這其中最大的挑戰在於 2D 網絡並不能提取到穩定的 3D 信息。

另外一種方案是先利用深度估計產生中間僞點雲，再利用基於 LiDAR 的 3D 目標檢測方法。可是這種方法中的變換是不可導的，而且須要多個獨立的網絡，還容易出現失真現象。

DSGN 是一種基於雙目深度估計的，端到端的 3D 目標檢測框架，其核心在於經過空間變換將 2D 特徵轉換成有效的 3D 結構。論文的主要貢獻以下：

爲了彌補 2D 圖像和 3D 空間的鴻溝，做者利用立體匹配構建平面掃描體（plane-sweep volume，PSV），並將其轉換成 3D 幾何體（3D geometric volume，3DGV），以便可以編碼 3D 幾何形狀和語義信息。
做者設計了一個端到端的框架，以提取用於立體匹配的像素級特徵和用於目標識別的高級特徵。所提出的 DSGN 能同時估計場景深度並檢測 3D 目標，從而實現多種實際應用。
做者提出的簡單且徹底可導的網絡在 KITTI 排行榜上超越全部其餘基於雙目深度估計的 3D 目標檢測器（AP 高出 10 個點）。

方法

上圖展現了 DSGN 的總體框架圖。將雙目圖像對做爲輸入，利用權重共享的孿生網絡提取特徵，並構建一個平面掃描體（PSV），它能夠學習逐像素的對應關係。

接着經過可導的 warping 操做，將 PSV 轉換爲 3D 幾何體（3DGV），從而構建 3D 世界座標系的 3D 幾何特徵。最後利用 3D 卷積網絡做用於 3DGV 進行 3D 目標檢測。

2.1 特徵提取

做者借鑑 PSMNet [1] 的特徵提取器做爲深度估計和 3D 目標檢測的共享特徵提取網絡。爲了提取更多的高層次特徵，而且減小計算量，主要進行了如下改動：

將更多的計算從 conv_3 轉到 conv_4 和 conv_5，好比從 conv_2 到 conv_5 的基本模塊的通道數從 {3,16,3,3} 變成 {3,6,12,4}。
PSMNet 中的 SPP 模塊增長了 conv_4 和 conv_5。
conv_1 的輸出通道數和殘差模塊的輸出通道數有所改變。

詳細的網絡結構可參考論文中的附錄部分。

2.2 構建3DGV

論文的核心是如何構建帶有 3D 幾何特徵的 3DGV，它是由 PSV 通過 warping 操做轉換獲得。3DGV 能夠看作是 3D 世界座標系的 3D 體素網格，它的大小是，分別沿攝像機視角的右方，下方和前方。每一個體素的大小是。

2.3 Plane-Sweep Volume

在雙目立體匹配中，一對左右圖像用來構造基於視差的匹配代價體（cost volume），它計算了左右圖像的像素點在水平方向上的位移是視差的匹配代價。

根據基於 cost volume 的立體匹配方法，鏈接左右圖特徵構造 PSV，它的座標表示爲，其中表示圖像上在該位置的像素點，表示垂直於圖像平面的深度信息。那麼空間能夠被稱爲相機座標系。

以後利用 3D Hourglass 網絡進行代價聚合。對於視差/深度估計，利用可導的 soft argmin 操做來計算全部機率爲的深度候選值的指望：

其中深度的候選值在間隔爲的預約義網格（即，）內均勻採樣。再利用 softmax 函數使得模型爲每一個像素點只選擇一個深度值，從而完成深度估計。

2.4 3D Geometric Volume

有了照相機座標，在已知攝像機內參的狀況下，能夠利用相機投影矩陣實現從世界座標系到相機座標系的轉換。假設世界座標系表示爲，而前面的相機座標表示爲，經典的轉換方法是從世界座標系到相機座標系：

而如今PSV的最後一層特徵做爲已知的相機座標系，要想獲得世界座標系，所以須要使用相機投影矩陣的逆矩陣。

其中和分別是水平方向和豎直方向的焦距，和是相機位姿參數。該操做是徹底可導的，能夠利用三線性差值的 warp 操做實現。

2.5 3D目標檢測器

對於 3D 目標檢測網絡部分，做者借鑑 anchor-free 的方法 FCOS [2] 中的centerness思想，設計了一種基於距離的策略來分配目標，同時也繼續保持anchor。

具體來講，令 3DGV 中的特徵圖大小爲，通過逐步下采樣操做，獲得用於鳥瞰視角的特徵圖，其大小爲。

對於中的每個位置，放置幾個不一樣方向和大小的anchor。假設anchors用表示，而GT目標框用表示，那麼它們的位置，預設大小和方向定義以下：

Anchors：
GT：
預測值：

其中是 anchor 方向的數量，是每一個參數學習的偏置。

沿用 FCOS 中的 centerness 思想，做者利用 anchor 和 GT 在 8 個角上的座標距離做爲目標分配的策略：

將與 GT 最近的 N 個樣本做爲正樣本，其中，是 GT 中體素的個數，而用來調整正樣本的個數。最終的 centerness 定義以下：

其中的範數表示最小-最大歸一化。

2.6 多任務訓練

DSGN 的整個網絡同時進行雙目深度估計和 3D 目標檢測，所以是一個多任務訓練過程，總體 loss 以下：

對於深度估計，採用 smooth L1 loss，是 GT 中的有效像素點，

對於 3D 目標檢測的分類任務，採用 focal loss 避免樣本不平衡的缺陷，是正樣本的個數，對於 centerness 採用 BCE loss。

對於 3D 目標檢測的迴歸任務，採用 smooth L1 loss 進行迴歸，

實驗

做者在 KITTI 3D 目標檢測數據集上進行實驗評測，該數據集包含 7481 張訓練圖像對和 7518 張測試圖像對，分爲 Car, Pedestrian 和 Cyclist 三種類型。下面是在測試集上的主要結果：

從表中能夠看出，對於 3D 和 BEV（Bird's Eye View）目標檢測，DSGN 超越了全部基於圖像的 3D 目標檢測器；在 2D 檢測上，也僅僅比 3DOP 要差一點。

值得一提的是，DSGN 首次獲得了與基於 LiDAR 的目標檢測器 MV3D 至關的準確率，該結果證實至少在低速自動駕駛條件下是有應用前景的。這些都驗證了 3DGV 的有效性，代表 3DGV 構建了 2D 圖像和 3D 空間的橋樑。

做者將訓練集分紅一半訓練集，一半驗證集進行消融分析，下面是消融實驗的結果：

從上表中能夠獲得如下幾個結論：

點雲的監督是很重要的。有點雲監督的結果要大大優於沒有監督的狀況。
在有點雲監督的狀況下，基於雙目的方法要遠遠優於基於單目的方法。再次證實僅僅有 3D 檢測框的監督信息是不充分的，基於雙目的深度信息對於 3D 檢測至關重要。
PSV 對於 3D 結構是一種更合適的特徵表示。PSCV 相比於 CV 的不一樣在於從相機座標系到世界座標系的轉換，對於 3D 檢測 AP 從 45.89 提高到 54.27。
PSV 做爲一種中間編碼方式能更有效地包含深度信息，由於它是深度估計網絡的中間特徵。

討論和總結

Stereo RCNN [3] 是 CVPR 2019 的 3D 目標檢測器，它是經過擴展 Faster RCNN，以雙目圖像做爲輸入的端到端 3D 檢測器。咱們能夠經過比較 DSGN 和 Stereo RCNN 的不一樣之處來更好的理解 DSGN。

DSGN 是 one-stage 的目標檢測器，而 Stereo RCNN 是 two-stage 的。
DSGN 利用了深度點雲信息做爲深度估計網絡的監督，從而實現深度估計和3D目標檢測的多任務學習，而 Stereo RCNN 僅有 3D 檢測框的監督信息。這種點雲監督信息使得DSGN中的 PSV 成爲更好的特徵表示，這多是 DSGN 性能大大提高的根本所在。
從目標檢測的角度看，兩者都採用了 anchor，不過 DSGN 借鑑了 anchor-free 的 centerness 思想，使得檢測性能更優。

參考文獻

[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.

[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.

[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.

點擊如下標題查看更多往期內容：

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者羣體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許能夠成爲一座橋樑，促使不一樣背景、不一樣方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或我的，在咱們的平臺上分享各種優質內容，能夠是最新論文解讀，也能夠是學習心得或技術乾貨。咱們的目的只有一個，讓知識真正流動起來。

???? 來稿標準：

• 稿件確係我的原創做品，來稿需註明做者我的信息（姓名+學校/工做單位+學歷/職位+研究方向）

• 若是文章並不是首發，請在投稿時提醒並附上全部已發佈連接

• PaperWeekly 默認每篇文章都是首發，均會添加「原創」標誌

???? 投稿郵箱：

• 投稿郵箱：hr@paperweekly.site

• 全部文章配圖，請單獨在附件中發送

• 請留下即時聯繫方式（微信或手機），以便咱們在編輯發佈時和做者溝通

????

如今，在「知乎」也能找到咱們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱咱們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。若是你研究或從事 AI 領域，歡迎在公衆號後臺點擊「交流羣」，小助手將把你帶入 PaperWeekly 的交流羣裏。

點贊
收藏
分享
- 文章舉報

PaperWeekly

發佈了433 篇原創文章 · 獲贊 578 · 訪問量 94萬+

私信關注