CVPR2018_Frustum PointNets for 3D Object Detection from RGB-D Data

viewing frustum: 稱視景體、視錐,是三維世界中在屏幕上可見的區域,即虛擬攝像機的視野。框架

 

Author

一做: Charles R. Qi  四做: Hao Su   學習

又是他倆,PontNet, PointNet++  CVPR2017, NIPS2017,又來個CVPR2018, 人生贏家啊spa

Abstract

解決3D object detection問題,使用RGB-D data(使用depth sensore),不一樣於之間的2D RGB-D圖像和3D voxels, 他們常常模糊3D pattern以及3D data的不變性,本文直接做用在RGB-D scan生成的原始點雲上orm

雖然以前PointNet能在小scale point clouds中分割得很好,可是一個主要問題是如何在大規模場景中有效地檢測物體 detect objects。server

利用降維技術和成熟的2D object detectors, 本文提出Frustum PointNet framework解決了以上的問題。blog

本框架超過SOTA,而且high efficiency.(runing at 5 fps)    【RGB-D & detection】圖片

這篇論文雖然起名時RGB-D data,可是實際使用的仍是點雲數據ip

Introduction

 3D sensors已經普遍部署於手機和無人機上,因此如今有愈來愈多的3D data, 本文學習一個更重要的3D perception tasks--3D object detectionci

以前的工做大可能是把3D數據轉換成2D數據(投影)或者體素數據來處理的,可是這樣就去失去3D數本質的一些特徵以及不變性部署

主挑戰:

how to efficiently propose possible locations of 3D objects in a 3D space.

3D search的計算複雜度特別高,會隨着分辨率增高計算複雜度增高,對於一些大場景或者實時的應用(自動駕駛)不是很實際

本文利用成熟的2D檢測技術,經過降維方式

以前的工做都是將RGB-D數據做爲2D map用CNN處理,本文更加3D利用depth map映射到point cloud從而直接處理point cloud

首先會對3D數據進行變換到一個規範框架,經過alignment,就能夠不用考慮一些姿態的變化

在KITTI 3D object detection中超過了SOTA, 並且high efficiency

經過不一樣描述RGB-D data的方式來進行3D detection

  • Front view image based methods:  用2D RGB圖像
  • Bird's eye view based methods: 
  •   bird's-eye view is an elevated view of an object from above, with a  perspective as though the  observer were a  bird, often used in the making of  blueprintsfloor plans, and  maps
  • 3D based methods: point clouds, 3D voxel, mesh

RGB-D data The depth data, obtained from LiDAR or indoor depth sensors, is represented as a point cloud in RGB camera coordinates.

 

3D Detection with Frustum PointNets

模型主要分爲3部分:

  • frustum proposao
  • 3D instance segmentation
  • 3D amodal bounding box estimation

對於實時3D sensor採集的3D數據仍是比2D數據的分辨率要低不少,因此用2D圖片和2D目標檢測的方法來提proposal(同時進行分類)效果很好

This normalization helps improve the rotation-invariance of the algorithm.

相關文章
相關標籤/搜索