©PaperWeekly 原創 · 做者|張承灝html
學校|中科院自動化所碩士生git
研究方向|雙目深度估計github
本文介紹的是香港中文大學賈佳亞團隊在 CVPR 2020 上提出的 3D 目標檢測新框架——深度立體幾何網絡(Deep Stereo Geometry Network,DSGN)。c#
經過構造一種可導的 3D 幾何體來實現 3D 目標檢測,從而減少了基於圖像的方法和基於 LiDAR 的方法之間的鴻溝。這是第一個一階段的,基於雙目的 3D 目標檢測器,在 KITTI 3D 目標檢測榜單上超越以往基於雙目的 3D 目標檢測方法。微信
論文標題:DSGN: Deep Stereo Geometry Network for 3D Object Detection網絡
論文地址:https://arxiv.org/abs/2001.03398框架
開源代碼:https://github.com/chenyilun95/DSGNsvg
背景
函數
根據特徵的表示方法不一樣,3D 目標檢測器主要分爲基於圖像的 3D 檢測器和基於 LiDAR 的 3D 檢測器。性能
基於 LiRAD 的 3D 檢測器:主要分爲基於體素的方法和基於點雲的方法;
基於圖像的 3D 檢測器:主要分爲基於深度估計的方法和基於 3D 特徵的方法;
因爲 LiDAR 傳感器可以捕捉準確的 3D 信息,所以基於 LiDAR 的 3D 檢測器準確率較高。其不足之處在於 LiDAR 設備笨重且價格昂貴,獲得是帶有激光束的稀疏分辨率的數據。
相比之下,視頻攝像機要便宜不少,而且可以產生更加稠密的分辨率。這種基於圖像的方法一般依靠單目或者雙目深度估計,可是準確率仍然沒法與基於 LiDAR 的方法相媲美。
基於深度估計的方法將 3D 目標檢測分爲兩步:深度估計和目標檢測,這其中最大的挑戰在於 2D 網絡並不能提取到穩定的 3D 信息。
另外一種方案是先利用深度估計產生中間僞點雲,再利用基於 LiDAR 的 3D 目標檢測方法。可是這種方法中的變換是不可導的,而且須要多個獨立的網絡,還容易出現失真現象。
DSGN 是一種基於雙目深度估計的,端到端的 3D 目標檢測框架,其核心在於經過空間變換將 2D 特徵轉換成有效的 3D 結構。論文的主要貢獻以下:
爲了彌補 2D 圖像和 3D 空間的鴻溝,做者利用立體匹配構建平面掃描體(plane-sweep volume,PSV),並將其轉換成 3D 幾何體(3D geometric volume,3DGV),以便可以編碼 3D 幾何形狀和語義信息。
做者設計了一個端到端的框架,以提取用於立體匹配的像素級特徵和用於目標識別的高級特徵。所提出的 DSGN 能同時估計場景深度並檢測 3D 目標,從而實現多種實際應用。
做者提出的簡單且徹底可導的網絡在 KITTI 排行榜上超越全部其餘基於雙目深度估計的 3D 目標檢測器(AP 高出 10 個點)。
方法
上圖展現了 DSGN 的總體框架圖。將雙目圖像對 做爲輸入,利用權重共享的孿生網絡提取特徵,並構建一個平面掃描體(PSV),它能夠學習逐像素的對應關係。
接着經過可導的 warping 操做,將 PSV 轉換爲 3D 幾何體(3DGV),從而構建 3D 世界座標系的 3D 幾何特徵。最後利用 3D 卷積網絡做用於 3DGV 進行 3D 目標檢測。
2.1 特徵提取
做者借鑑 PSMNet [1] 的特徵提取器做爲深度估計和 3D 目標檢測的共享特徵提取網絡。爲了提取更多的高層次特徵,而且減小計算量,主要進行了如下改動:
將更多的計算從 conv_3 轉到 conv_4 和 conv_5,好比從 conv_2 到 conv_5 的基本模塊的通道數從 {3,16,3,3} 變成 {3,6,12,4}。
PSMNet 中的 SPP 模塊增長了 conv_4 和 conv_5。
conv_1 的輸出通道數和殘差模塊的輸出通道數有所改變。
詳細的網絡結構可參考論文中的附錄部分。
2.2 構建3DGV
論文的核心是如何構建帶有 3D 幾何特徵的 3DGV,它是由 PSV 通過 warping 操做轉換獲得。3DGV 能夠看作是 3D 世界座標系的 3D 體素網格,它的大小是 ,分別沿攝像機視角的右方,下方和前方。每一個體素的大小是 。
2.3 Plane-Sweep Volume
在雙目立體匹配中,一對左右圖像 用來構造基於視差的匹配代價體(cost volume),它計算了左右圖像的像素點在水平方向上的位移是視差 的匹配代價。
根據基於 cost volume 的立體匹配方法,鏈接左右圖特徵構造 PSV,它的座標表示爲 ,其中 表示圖像上在該位置的像素點, 表示垂直於圖像平面的深度信息。那麼 空間能夠被稱爲相機座標系。
以後利用 3D Hourglass 網絡進行代價聚合。對於視差/深度估計,利用可導的 soft argmin 操做來計算全部機率爲 的深度候選值的指望:
其中深度的候選值在間隔爲 的預約義網格(即 , )內均勻採樣。再利用 softmax 函數使得模型爲每一個像素點只選擇一個深度值,從而完成深度估計。
2.4 3D Geometric Volume
有了照相機座標,在已知攝像機內參的狀況下,能夠利用相機投影矩陣 實現從世界座標系到相機座標系的轉換。假設世界座標系表示爲 ,而前面的相機座標表示爲 ,經典的轉換方法是從世界座標系到相機座標系:
而如今PSV的最後一層特徵做爲已知的相機座標系,要想獲得世界座標系,所以須要使用相機投影矩陣的逆矩陣 。
其中 和 分別是水平方向和豎直方向的焦距, 和 是相機位姿參數。該操做是徹底可導的,能夠利用三線性差值的 warp 操做實現。
2.5 3D目標檢測器
對於 3D 目標檢測網絡部分,做者借鑑 anchor-free 的方法 FCOS [2] 中的centerness思想,設計了一種基於距離的策略來分配目標,同時也繼續保持anchor。
具體來講,令 3DGV 中的特徵圖大小爲 ,通過逐步下采樣操做,獲得用於鳥瞰視角的特徵圖 ,其大小爲 。
對於 中的每個位置 ,放置幾個不一樣方向和大小的anchor。假設anchors用 表示,而GT目標框用 表示,那麼它們的位置,預設大小和方向定義以下:
Anchors:
GT:
預測值:
其中 是 anchor 方向的數量, 是每一個參數學習的偏置。
沿用 FCOS 中的 centerness 思想,做者利用 anchor 和 GT 在 8 個角上的座標距離做爲目標分配的策略:
將與 GT 最近的 N 個樣本做爲正樣本,其中 , 是 GT 中體素的個數,而 用來調整正樣本的個數。最終的 centerness 定義以下:
其中的範數表示最小-最大歸一化。
2.6 多任務訓練
DSGN 的整個網絡同時進行雙目深度估計和 3D 目標檢測,所以是一個多任務訓練過程,總體 loss 以下:
對於深度估計,採用 smooth L1 loss, 是 GT 中的有效像素點,
對於 3D 目標檢測的分類任務,採用 focal loss 避免樣本不平衡的缺陷, 是正樣本的個數,對於 centerness 採用 BCE loss。
對於 3D 目標檢測的迴歸任務,採用 smooth L1 loss 進行迴歸,
實驗
做者在 KITTI 3D 目標檢測數據集上進行實驗評測,該數據集包含 7481 張訓練圖像對和 7518 張測試圖像對,分爲 Car, Pedestrian 和 Cyclist 三種類型。下面是在測試集上的主要結果:
從表中能夠看出,對於 3D 和 BEV(Bird's Eye View)目標檢測,DSGN 超越了全部基於圖像的 3D 目標檢測器;在 2D 檢測上,也僅僅比 3DOP 要差一點。
值得一提的是,DSGN 首次獲得了與基於 LiDAR 的目標檢測器 MV3D 至關的準確率,該結果證實至少在低速自動駕駛條件下是有應用前景的。這些都驗證了 3DGV 的有效性,代表 3DGV 構建了 2D 圖像和 3D 空間的橋樑。
做者將訓練集分紅一半訓練集,一半驗證集進行消融分析,下面是消融實驗的結果:
從上表中能夠獲得如下幾個結論:
點雲的監督是很重要的。有點雲監督的結果要大大優於沒有監督的狀況。
在有點雲監督的狀況下,基於雙目的方法要遠遠優於基於單目的方法。再次證實僅僅有 3D 檢測框的監督信息是不充分的,基於雙目的深度信息對於 3D 檢測至關重要。
PSV 對於 3D 結構是一種更合適的特徵表示。PSCV 相比於 CV 的不一樣在於從相機座標系到世界座標系的轉換,對於 3D 檢測 AP 從 45.89 提高到 54.27。
PSV 做爲一種中間編碼方式能更有效地包含深度信息,由於它是深度估計網絡的中間特徵。
討論和總結
Stereo RCNN [3] 是 CVPR 2019 的 3D 目標檢測器,它是經過擴展 Faster RCNN,以雙目圖像做爲輸入的端到端 3D 檢測器。咱們能夠經過比較 DSGN 和 Stereo RCNN 的不一樣之處來更好的理解 DSGN。
DSGN 是 one-stage 的目標檢測器,而 Stereo RCNN 是 two-stage 的。
DSGN 利用了深度點雲信息做爲深度估計網絡的監督,從而實現深度估計和3D目標檢測的多任務學習,而 Stereo RCNN 僅有 3D 檢測框的監督信息。這種點雲監督信息使得DSGN中的 PSV 成爲更好的特徵表示,這多是 DSGN 性能大大提高的根本所在。
從目標檢測的角度看,兩者都採用了 anchor,不過 DSGN 借鑑了 anchor-free 的 centerness 思想,使得檢測性能更優。
參考文獻
[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.
[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.
[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.
點擊如下標題查看更多往期內容:
#投 稿 通 道#
讓你的論文被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者羣體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許能夠成爲一座橋樑,促使不一樣背景、不一樣方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或我的,在咱們的平臺上分享各種優質內容,能夠是最新論文解讀,也能夠是學習心得或技術乾貨。咱們的目的只有一個,讓知識真正流動起來。
???? 來稿標準:
• 稿件確係我的原創做品,來稿需註明做者我的信息(姓名+學校/工做單位+學歷/職位+研究方向)
• 若是文章並不是首發,請在投稿時提醒並附上全部已發佈連接
• PaperWeekly 默認每篇文章都是首發,均會添加「原創」標誌
???? 投稿郵箱:
• 投稿郵箱:hr@paperweekly.site
• 全部文章配圖,請單獨在附件中發送
• 請留下即時聯繫方式(微信或手機),以便咱們在編輯發佈時和做者溝通
????
如今,在「知乎」也能找到咱們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱咱們的專欄吧
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。若是你研究或從事 AI 領域,歡迎在公衆號後臺點擊「交流羣」,小助手將把你帶入 PaperWeekly 的交流羣裏。