3D Object Classification With Point Convolution —— 點雲卷積網絡

今天剛剛獲得消息,以前投給IROS 2017的文章收錄了。好久好久沒有寫過博客,今天正好借這個機會來談談點雲卷積網絡的一些細節。網絡

 

一、點雲與三維表達

三維數據後者說空間數據有不少種表達方式,好比:RGB-D 圖像,體素圖像,三維點雲等。這些三維數據的表達方式各有特色:RGB-D 圖像能夠直接從Kinect 讀到,並且是規整的,適合直接用於現存的圖像處理框架。體素圖像更直觀的展現物體的三維形貌,更直接的表達物體表面空間位置關係,同時,很容易將圖像中成功的方法推廣到體素圖像中。而三維點雲的表達更加緊湊,一樣分辨考慮狀況下,三維點雲的表達佔更小的空間(三維點雲能夠認爲是體素圖像的緊湊編碼,即記錄體素圖像中 occupied voxel 的座標)。同時,LiDAR 點雲轉RGB - D 會有不少空洞。因此,咱們致力於設計一種通用的方法,利用點雲來分析物體表面所傳達的信息。框架

二、點雲卷積

卷積神經網絡是深度學習中具備表明性的一種模型,很成功的解決了圖像分割,識別,檢測,分析,caption,questioning等不一樣層次的問題。根據咱們的理解,卷積網絡的成功之處在於巨大的容量,能夠容納更多信息,在流形中容易造成更好的連續性;從局部到總體層級式的映射,卷積核通過多層映射後有巨大的接受域,模型既含有局部信息又含有物體的總體信息;去中心化的結構,卷積過程當中對全部的像素都沒有主觀偏好性。最讓咱們感興趣的,是卷積這種操做經過綜合周邊信息和非線性映射來優化局部的表達,又經過局部表達的綜合來給出總體描述。同時,和卷積配合的池化操做能夠給模型帶來微小的局部不變性。這些優良的性質啓發了咱們將卷積這種操做用在三維數據上。學習

 

最容易實現的三維卷積網絡是在體素圖像上進行三維卷積操做。但體素圖像每每都有其缺點:一、所謂三維每每是2.5維,物體的自遮擋是沒法忽略的,二、三維卷積操做須要多搜索一個維度,3*3*3的三維卷積覈計算量近大於在圖像上進行5*5卷積核的操做。同時,100*100*100的三維體素圖像尺寸上至關於1000*1000的二維圖像,因此三維卷積是比較昂貴的操做。三、三維體素圖像(binary, VoxNet)含有大量的空白,也就是0,物體自遮擋,內部信息都是沒法訪問的。因此大量的卷積操做都不是很划算。因此咱們考慮將卷積這種操做移植到點雲上。優化

 

點雲自己具備無序性。也就是對點雲進行隨意排序它對物體的表達都是一致的。對無序序列進行訓練自己彷佛聽起來是一件不太可能的事情。當前階段的分類網絡都是以泛化(generalization)爲主,訓練樣本若是是無序的,那麼同一件東西則有徹底 非近似 的表達,遑論統一。因此,IROS的工做介紹瞭如何在點雲上創建順序、卷積操做、以及最後造成網絡的方法。編碼

相關文章
相關標籤/搜索