這是專欄《圖像分割模型》的第10篇文章。在這裏,咱們將共同探索解決分割問題的主流網絡結構和設計思想。web
深度信息的引入每每會給分割帶來更好的結果。以前提到的ENet除了直接變成ReSeg分割網絡,一樣也能夠結合RGB-D信息實現更準確的分割。面試
做者 | 孫叔橋算法
編輯 | 言有三數據庫
本期論文微信
《LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling》網絡
1 RGB-D分割架構
前面咱們已經討論過許多基於RGB信息的分割網絡了,今天就來談談RGB-D分割。RGB-D分割中的D指的是「Depth」,即「深度」,也就是相機到物體在實際空間中的距離。框架
那麼既然RGB信息已經可以實現分割,爲何要用到深度信息呢?緣由很簡單:引入深度信息後,其提供的額外結構信息可以有效輔助複雜和困難場景下的分割。好比,與室外場景相比,因爲語義類別繁雜、遮擋嚴重、目標外觀差別較大等緣由,室內場景的分割任務要更難實現。此時,在結合深度信息的狀況下,可以有效下降分割的難度。學習
雖然道理容易,可是如何實現RGB-D分割仍是有些問題須要解決的:ui
如何有效地表述和融合共存的深度和光度(RGB)數據
如何在特徵學習過程當中有效獲取全局場景上下文
下面咱們就經過LSTM-CF網絡結構來了解一下,如何實現RGB-D下的分割。
2 LSTM-CF
上一篇文章咱們已經介紹過了ReNet,這裏簡單回顧一下。ReNet是經過在兩個正交方向上級聯應用RNN來獲取圖像中的2D依賴項。ReNet的具體實現方式以下圖所示:
基於ReNet,LSTM-CF利用長短期記憶和DeepLab實現分割。LSTM-DF主要包括四個部分:用於豎直深度上下文提取的層,用於豎直光度上下文提取的層,用於整合光度和深度上下文成2D全局上下文的記憶融合層,和像素級場景分割層。
下圖是LSTM-CF網絡模型:
輸入深度信息後,LSTM-CF利用HHA描述,將深度信息轉換成視差、表面法線和高這三個通道的信息。隨後,利用ReNet提取不一樣方向上的上下文信息,並在兩個方向進行雙向傳播。
與此同時,對於RGB通道信息,網絡利用如上圖所示的卷積結構提取特徵,利用插值將各級特徵恢復到相同分辨率下,並級聯。以後,一樣利用ReNet獲取上下文信息。
細心的讀者可能注意到了,RGB通道比深度通道多出了兩層。這是由於,考慮到光度圖像比離散、稀疏的深度圖像包含的信息多,網絡對光度圖像分支給予更多的關注。
歸納起來,LSTM-CF的分割流程能夠總結爲下圖的形式:
3 實驗結果
爲了驗證深度信息和長短信息記憶等模塊對於分割任務的影響,LSTM-CF對網絡結構進行了剝離實驗。下圖是實驗結果:
可見,分割的主要精度仍是來源於RGB信息的,可是引入了深度信息和上下文信息後,網絡的精度可以獲得必定的提高。
下圖是LSTM-CF在SUNRGBD數據庫下的實驗結果:
第一行爲圖像,第二行爲真值,第三行爲LSTM-CF分割結果
若是想了解更多,歡迎加入圖像分割星球
通過10期的介紹,語義分割問題上應該瞭解的基礎網絡結構就基本說完了。下一期咱們來聊聊與語義分割稍有差別的實例分割網絡結構。
本週直播(點擊圖片跳轉)
今日看圖猜技術
今日知識彙總
有三AI生態
更多精彩內容請關注知乎專欄《有三AI學院》
轉載文章請後臺聯繫
侵權必究
往期精選
本文分享自微信公衆號 - 有三AI(yanyousan_ai)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。