viewing frustum: 稱視景體、視錐,是三維世界中在屏幕上可見的區域,即虛擬攝像機的視野。框架
一做: Charles R. Qi 四做: Hao Su 學習
又是他倆,PontNet, PointNet++ CVPR2017, NIPS2017,又來個CVPR2018, 人生贏家啊spa
解決3D object detection問題,使用RGB-D data(使用depth sensore),不一樣於之間的2D RGB-D圖像和3D voxels, 他們常常模糊3D pattern以及3D data的不變性,本文直接做用在RGB-D scan生成的原始點雲上orm
雖然以前PointNet能在小scale point clouds中分割得很好,可是一個主要問題是如何在大規模場景中有效地檢測物體 detect objects。server
利用降維技術和成熟的2D object detectors, 本文提出Frustum PointNet framework解決了以上的問題。blog
本框架超過SOTA,而且high efficiency.(runing at 5 fps) 【RGB-D & detection】圖片
這篇論文雖然起名時RGB-D data,可是實際使用的仍是點雲數據ip
3D sensors已經普遍部署於手機和無人機上,因此如今有愈來愈多的3D data, 本文學習一個更重要的3D perception tasks--3D object detectionci
以前的工做大可能是把3D數據轉換成2D數據(投影)或者體素數據來處理的,可是這樣就去失去3D數本質的一些特徵以及不變性部署
主挑戰:
how to efficiently propose possible locations of 3D objects in a 3D space.
3D search的計算複雜度特別高,會隨着分辨率增高計算複雜度增高,對於一些大場景或者實時的應用(自動駕駛)不是很實際
本文利用成熟的2D檢測技術,經過降維方式
以前的工做都是將RGB-D數據做爲2D map用CNN處理,本文更加3D利用depth map映射到point cloud從而直接處理point cloud
首先會對3D數據進行變換到一個規範框架,經過alignment,就能夠不用考慮一些姿態的變化
在KITTI 3D object detection中超過了SOTA, 並且high efficiency
經過不一樣描述RGB-D data的方式來進行3D detection
bird's-eye view is an elevated view of an object from above, with a perspective as though the observer were a bird, often used in the making of blueprints, floor plans, and maps
RGB-D data The depth data, obtained from LiDAR or indoor depth sensors, is represented as a point cloud in RGB camera coordinates.
模型主要分爲3部分:
對於實時3D sensor採集的3D數據仍是比2D數據的分辨率要低不少,因此用2D圖片和2D目標檢測的方法來提proposal(同時進行分類)效果很好
This normalization helps improve the rotation-invariance of the algorithm.