Arxiv1801_PointCNN

參考: http://www.sohu.com/a/220248571_473283  連接寫的很是清楚,看一遍就懂框架

Author

李揚彥、卜瑞、孫銘超、陳寶權   from  山東大學  論文刷新了五項benchmark, 超過了pointNet性能

PointCNN提出了一種稱爲X-變換的方法。X-變換是從輸入點學習到的一組權值X,這組權值能夠對各點相關聯的特徵進行從新加權和排列。 X-變換能夠實現「隨機應變」,即當輸入點的順序變化時, X可以相應地變化,使加權和排列以後的特徵近似不變。輸入特徵在通過X-變換的處理以後可以變成與輸入點順序無關同時也編碼了輸入點形狀信息的歸一化的特徵。在通過X-變換以後的特徵上進行卷積可以極大提升卷積核的利用率, 從而大大提升卷積操做在無序數據上提取特徵的能力。學習

Abstract

咱們提出了一個簡單而通用的點雲特徵學習框架。 CNN成功的關鍵是卷積算子,它可以利用網格形式密集表示的數據中的局部相關性(如圖像)。 然而,點雲是不規則的,無序的,所以點對點的特徵與點的直接卷積將致使形狀信息丟失,還會由於輸入點順序不一致而產生不一樣的輸出。 爲了解決這些問題,咱們嘗試從輸入點學習X-變換,而後使用它來加權與排列輸入點的特徵。這種操做能夠把輸入點的形狀信息編碼到特徵中,同時把輸入特徵的順序歸一化到某種潛在的一致的模式。 這種方法是將典型的針對規則域數據的CNN推廣到可以處理點雲這種非規則無序數據的一種嘗試,所以被稱爲PointCNN。 實驗代表,PointCNN在多種具備挑戰性的基準數據集和任務上達到了與最早進方法至關或更好的性能。測試

 

點雲是一組點的集合,經常使用來表示自身維度比背景空間緯度低的數據(好比空間中的曲面等)。因爲數據較爲稀疏,直接採用密集體素的方式,不只數據量大,並且數據中包含過多的冗餘信息,不利於數據特徵的提取。不只如此,大量的3D傳感器也採用點雲的方式保存數據,數據來源很是普遍。編碼

 

數學上來說,CNN中的卷積操做本質上是將輸入進行加權求和,結果依賴輸入的順序,即f(a,b)一般不等於f(b,a)。特別地,對於f(a,b,c,d)來說,若是a被e替換掉,且e順序在d以後,則替換後的結果f(b,c,d,e)一般會和f(a,b,c,d)有巨大的差別。所以CNN中的卷積操做是對數據輸入的順序是敏感的,對於無序數據則較難提取到有效的特徵。視頻

因爲圖像表示方式大多爲密集陣列式的,像素點之間等距有序地排列在一塊兒,使得基於卷積的一系列操做在圖像數據上可以獲得統一的輸出。最直接的將處理圖片的CNN推廣處處理三維數據的方式是將三維數據使用三維體素來表達,從而應用三維CNN。然而,三維數據一般較爲稀疏,但基於體素的三維CNN難以利用這一特性。點雲能夠高效表達三維稀疏數據,然而,點雲數據中各點之間距離不一, 點的排布也沒有順序(unordered), 沒法直接使用CNN進行特徵學習。圖片

PointCNN提供了一個可以高效地從點雲中提取特徵的方法。get

 

特別值得一提的是,在ModelNet40的分類任務上,在只使用32個點做爲輸入的極端壓力測試下,PointCNN仍然可以取得84.4%的準確率,這一結果大幅領先目前已知的其餘方法。在這種極端壓力測試下,PointCNN的計算量很是小,可以在GTX 1080 GPU上以每幀0.3毫秒的速度進行點雲識別。自動駕駛中獲取的點雲每每很是稀疏,同時對實時性要求極高。該壓力測試顯示PointCNN有應用於自動駕駛的巨大潛力。數學

 

CIFAR10實驗來看。在通常的圖像上, CNN仍然是比PointCNN更好的選擇。而PointCNN的優點在數據越稀疏的時候越能展示出來。目前並無一個科學的準則判斷是應該將數據表達爲規則形式進而應用CNN,仍是應該將數據表達爲點雲形式進而應用PointCNN。有意思的是,部分密集的數據也許能夠被稀疏的表達,例如視頻一般被表現爲密集的三維數據,可是一般在視頻幀裏面只有少許的像素是逐幀變化的。 PointCNN加上稀疏但不規則表達的視頻數據也是一個有趣的方向。壓力測試

本站公眾號
   歡迎關注本站公眾號,獲取更多信息