主要針對的任務是RGBD語義分割, 不一樣於往常的RGB圖像的語義分割任務, 這裏還能夠更多的考慮來自D通道的深度信息. 因此對於這類任務須要聯合2D外觀和3D幾何信息來進行聯合推理.github
關於將深度信息編碼爲圖像的方法有如下幾種:算法
以後FCN直接在編碼圖像上進行特徵提取.編程
關於如何進行RGBD圖像的分割, 以往有的工做主要有如下的幾種方法:網絡
爲了處理上述挑戰, 文章提出了一個端到端的3D圖神經網絡, 這直接從3D點中學習表示.app
當前不少工做已經努力將神經網絡推廣到圖數據上.dom
一個方向是將卷積神經網絡(CNN)應用於圖. 在譜方法中, CNN用於依賴於拉普拉斯矩陣的譜域. 然而[6]使用哈希函數, 所以能夠將CNN應用於圖. 另外一個方向是將神經網絡循環應用於圖的每一個節點, 產生了「圖形神經網絡」. 該模型包括一個傳播過程, 它相似於圖模型的消息傳遞. 這種模型的最終學習過程能夠經過BPTT算法來實現.ide
這裏使用的消息傳播模型的圖神經網絡, 基礎更新公式爲:函數
其中h爲隱藏狀態, m對於當前節點的鄰居信息的彙總後的結果, 具體如何匯聚, 看具體不一樣的模型的設定, 文章是使用的均值. 函數M是計算消息的函數, 而F是用來更新隱藏狀態的函數. 和循環卷積神經網絡相似, M, F是不一樣的時間步上是共享權值的. 簡單的M和F可使用像素級加法和全鏈接層來分別表示 這些更新函數指定了圖內信息的傳播模型. 也可使用多個M來包含來自有着不一樣類型的邊的圖的更多信息.性能
經過執行上述傳播模型必定數量的步驟來執行推斷, 最終預測能夠在節點處或在圖級別產生, 具體取決於任務. 例如, 能夠將隱藏表示(或其聚合)提供給另外一個神經網絡以執行節點(或圖)分類.
圖神經網絡與許多現有模型密切相關, 例如條件隨機場(CRF)和循環神經網絡網絡(RNN). 文章專一於成對CRF, 但請注意, 這裏的鏈接擴展到了高階模型上.GNN能夠被看做是一個RNN從序列到圖數據上的泛化.
這種動態計算方案的關鍵思想是節點狀態由其歷史狀態和其鄰居發送的消息共同肯定, 同時將外觀和3D信息同時考慮在內.
使用每一個節點的最終狀態來執行每一個節點的分類任務. 採用BPTT算法計算圖形神經網絡的梯度. 此外, 經過傳播梯度到一元CNN促進端到端的培訓.
給定圖像, 基於像素的2D位置和深度信息來構建有向圖, 讓[x, y, z]表示相機座標系中的點的3D座標, 而且讓[u, v]表示其根據針孔相機模型投影到圖像上的座標. 根據透視投影幾何產生式子:
這裏的fx和fy表示沿着x和y的焦距長度(focal length), 而且cx和cy表示主點(the principal point). 爲了造成圖, 將每一個像素視爲一個節點, 並經過有向邊緣將其鏈接到3D空間中的K近鄰(KNN), 在咱們的實驗中K設置爲64. 注意, 這個過程產生不對稱結構, 即, 自A到B的邊的存在不必定意味着自B到A的邊的存在.
在構造完圖後, 使用CNN做爲一元模型來計算每一個像素的特徵, 這些特徵做爲對應節點的初始隱藏層表示, 從而編碼外觀信息. 給定已經編碼好幾何上下文信息的3D圖, 圖神經網絡能夠用來利用外觀和幾何信息.
信息傳遞過程以下:
這裏的g是一個多層感知機, 文章是用的是ReLU做爲對應的非線性激活函數. 每一個時間步, 每一個節點收集來自鄰居節點的消息. 消息首先被匯聚平均後, 與節點原始隱藏狀態進行融合更新.這裏關於F的選擇, 主要有兩種:
網絡的大體狀況如上.
對於每一個節點v在得分圖中對應的像素, 這裏預測語義類別yv的機率pyv使用下面的公式計算:
這裏的s是一個全部節點共享的有着softmax層MLP. 注意這裏拼接了一元CNN輸出的初始隱藏狀態和T個時間步以後的迭代輸出隱藏狀態.
最終使用一個softmax交叉熵損失函數來對每一個節點進行損失計算, 使用BPTT進行訓練.
We evaluate our method on two popular RGBD datasets: NYUD2 and SUN-RGBD.
NYUD2 contains a total of 1,449 RGBD image pairs from 464 different scenes. The dataset is divided into 795 images from 249 scenes for training and 654 images from 215 scenes for testing. We randomly split 49 scenes from the training set as the validation set, which contains 167 images. The remaining 654 images from 200 scenes are used as the training set.
劃分比例: tr:val:te = 654:167:654 = 1:0.25 :1
SUN-RGBD consists of 10,335 images, which are divided into 5,285 RGBD image pairs for training and 5,050 for testing.
All our hyperparameter search and ablation studies are performed on the NYUD2 validation set.
For most of the ablation experiments, we use a modified VGG-16 network, i.e., deeplab-LargeFov with dilated convolutions as our unary CNN to extract the appearance features from the 2D images. We use the fc7 feature map. The output feature map is of size H×W×C where H, W and C are the height, width and the channel size respectively. Note that due to the stride and pooling of this network, H and W are 1/8 of the original input in terms of size.** 所以, 咱們的 3D 圖形是創建在向下採樣的特徵圖之上的.**
爲了進一步合併上下文信息, 咱們使用全局池從特徵圖計算另外一個 C 維向量. 而後將向量附加到全部空間位置, 從而生成一個 H×W×2C 特徵圖.
In our experiment, C=1024 and a 1×1 convolution layer is used to further reduce the dimension to 512.
We also experimented by replacing the VGG-net with ResNet-101 or by combining it with the HHA encoding.
提出了一種用於RGBD語義分割的新型3D圖神經網絡. 圖神經網絡創建在從RGB圖像中提取顏色和深度的點之上. 咱們的3DGNN利用2D外觀信息和3D幾何關係, 它可以捕捉圖像中的長距離依賴, 這在傳統方法中難以建模. 各類實證結果代表, 咱們的模型在標準RGBD語義分段基準上實現了良好的性能.
未來, 咱們計劃調查反饋以調整構造圖的結構.