1. 深度學習跟SLAM的結合點
深度學習和slam的結合是近幾年比較熱的一個研究方向,具體的研究方向,我簡單分爲三塊,以下。html
1.1 深度學習結合SLAM的三個方向
用深度學習方法替換傳統SLAM中的一個/幾個模塊
- 特徵提取,特徵匹配,提升特徵點穩定性,提取點線面等不一樣層級的特徵點。
- 深度估計
- 位姿估計
- 重定位
- 其餘
在傳統SLAM之上加入語義信息
端到端的SLAM
其實端到端就不能算是SLAM問題了吧,SLAM是同步定位與地圖構建,端到端是輸入image輸出action,沒有定位和建圖。
- 機器人自主導航(深度強化學習)等react
1.2 相關的部分論文整理
1.2.1 用深度學習方法替換傳統SLAM中的一個/幾個模塊。
替換多個模塊
特徵相關(特徵提取匹配等)
注:Middlebury Stereo Datasets
數據集下載連接git
![這裏寫圖片描述](http://static.javashuo.com/static/loading.gif)
![這裏寫圖片描述](http://static.javashuo.com/static/loading.gif)
左邊是SIFT,右邊是LIFT
源代碼 https://github.com/cvlab-epfl/LIFTgithub
位姿估計,深度估計
![這裏寫圖片描述](http://static.javashuo.com/static/loading.gif)
- Xu J, Ranftl, René, Koltun V. Accurate Optical Flow via Direct Cost Volume Processing[J]. 2017.
光流法不太關注,這個名字也是翻譯不出來…………
英文摘要:
We present an optical flow estimation approach that operates on the full four-dimensional cost volume. This direct
approach shares the structural benefits of leading stereo matching pipelines, which are known to yield high accuracy. To this day, such approaches have been considered impractical due to the size of the cost volume. We show that the full four-dimensional cost volume can be constructed in a fraction of a second due to its regularity. We then exploit this regularity further by adapting semi-global matching to the four-dimensional setting. This yields a pipeline that achieves significantly higher accuracy than state-of-the-art optical flow methods while being faster than most. Our approach outperforms all published general-purpose optical flow methods on both Sintel and KITTI 2015 benchmarks.
![這裏寫圖片描述](http://static.javashuo.com/static/loading.gif)
- Liao Y, Huang L, Wang Y, et al. Parse Geometry from a Line: Monocular Depth Estimation with Partial Laser Observation[J]. 2017.
一條線上的解析幾何:使用部分激光觀測的單目深度估計
(輸入:單目圖像和2D激光距離數據 NYUDv2數據集 KITTI數據集)
激光的也不太關注。
Abstract— Many standard robotic platforms are equipped with at least a fixed 2D laser range finder and a monocular camera. Although those platforms do not have sensors for 3D depth sensing capability, knowledge of depth is an essential part in many robotics activities. Therefore, recently, there is an increasing interest in depth estimation using monocular images. As this task is inherently ambiguous, the data-driven estimated depth might be unreliable in robotics applications. In this paper, we have attempted to improve the precision of monocular
depth estimation by introducing 2D planar observation from the remaining laser range finder without extra cost. Specifically, we construct a dense reference map from the sparse laser range data, redefining the depth estimation task as estimating the distance between the real and the reference depth. To solve the problem, we construct a novel residual of residual neural network, and tightly combine the classification and regression losses for continuous depth estimation. Experimental results suggest that our method achieves considerable promotion compared to the state-of-the-art methods on both NYUD2 and KITTI, validating the effectiveness of our method on leveraging the additional sensory information. We further demonstrate the potential usage of our method in obstacle avoidance where our methodology provides comprehensive depth information compared to the solution using monocular camera or 2D laser range finder alone。
![這裏寫圖片描述](http://static.javashuo.com/static/loading.gif)
重定位
可能重定位用深度學習比較難作吧,畢竟是個偏幾何的問題,暫時不太關注
- Wu J, Ma L, Hu X. Delving deeper into convolutional neural networks for camera relocalization[C]// IEEE International Conference on Robotics and Automation. IEEE, 2017.
- Alex Kendall, Matthew Grimes, Roberto Cipolla. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization[J]. 2015, 31:2938-2946.
PoseNet:用於實時六自由度相機重定位的卷積神經網絡。
PoseNet是2015年的研究成果,算是SLAM跟深度學習結合的比較有開創性的成果。
![這裏寫圖片描述](http://static.javashuo.com/static/loading.gif)
源代碼 https://github.com/alexgkendall/caffe-posenet算法
另有一篇頗有意思的論文
- Vo N, Jacobs N, Hays J. Revisiting IM2GPS in the Deep Learning Era[J]. 2017.
深度學習時代圖像-GPS的重定位
思路頗有意思,使用一張照片在全世界範圍內進行定位。
網絡
1.2.2 在傳統SLAM之上加入語義信息
圖像語義分割&語義地圖構建
-
Li X, Belaroussi R. Semi-Dense 3D Semantic Mapping from Monocular SLAM[J]. arXiv preprint arXiv:1611.04144, 2016.
單目SLAM的半稠密語義建圖
(LSD-SLAM,室內外場景)
摘要:
將計算機視覺中的幾何與圖像相結合,已經被證實是機器人在各類各樣的應用中的一種頗有發展前景的解決方案。stereo相機和RGBD傳感器被普遍用於實現快速三維重建和密集軌跡跟蹤。然而,它們缺少不一樣規模環境無縫切換的靈活性,好比說,室內和室外場景。此外, 在三維建圖中,語義信息仍然很難獲取。咱們經過結合state-of-art的深度學習方法和半稠密的基於單目相機視頻流的SLAM,應對此種挑戰。在咱們的方法中,二維的語義信息,結合了有空間一致性的相連關鍵幀之間的correspondence對應關係以後,再進行三維建圖。在這裏並不須要對一個序列裏的每個關鍵幀進行語義分割,因此計算時間相對合理。咱們在室內室外數據集上評測了咱們的方法,在經過baseline single frame prediction基準單幀預測實現二維語義標註方面取得了效果的提高。
架構
基本框架圖以下:
輸入RGB圖像->選擇關鍵幀並refine->2D語義分割->3D重建,語義優化
app
- Sünderhauf N, Pham T T, Latif Y, et al. Meaningful Maps With Object-Oriented Semantic Mapping[J]. 2017.
這個題目怎麼翻譯是好?面向對象語義建圖的有意義地圖
(輸入:RGB-D圖像 SSD ORB-SLAM2)
摘要:
智能機器人必須理解它們周圍場景的幾何和語義兩方面的特性,才能跟環境進行有意義地交互。到目前爲止,大多數研究已經分別解決了這兩個建圖問題,側重於幾何信息建圖或者是語義信息建圖。在本文中咱們解決了,既包含有語義意義和對象級別的實體,也包含基於點或網格的幾何表示的環境地圖構建的問題。咱們同時也對已知對象類別中看不到的實例創建了幾何點雲模型,並創建了以這些對象模型爲中心實體的地圖。咱們的系統利用了稀疏的基於特徵的RGB-D SLAM,基於圖像的深度學習目標檢測方法和三維無監督的分割方法。
基本框架圖以下:
輸入RGB-D圖像 -> ORB-SLAM2應用於每一幀,SSD(Single Shot MultiBox Detector)用於每個關鍵幀進行目標檢測,3D無監督分割方法對於每個檢測結果生成一個3D點雲分割 -> 使用相似ICP的匹配值方法進行數據關聯,以決定是否在地圖中建立新的對象或者跟已有對象創建檢測上的關聯 -> 地圖對象的3D模型(3D點雲分割,指向ORB-SLAM2中位姿圖的指針,對每一個類別的累計置信度)
![這裏寫圖片描述](http://static.javashuo.com/static/loading.gif)
- Ma L, Stückler J, Kerl C, et al. Multi-View Deep Learning for Consistent Semantic Mapping with RGB-D Cameras[J]. 2017.
基於RGB-D相機和多視角深度學習的一致語義建圖
(NYUDv2數據集 )
摘要:
視覺場景理解是使機器人可以在環境中進行有目的的行動的一項重要的能力。本文中,咱們提出了一種新型的深度神經網絡方法以在RGB-D圖像序列中進行語義分割。主要的創新點在於用一種自監督的方式訓練咱們的網絡用於預測多視角一致的語義信息。在測試時,此網絡的基於語義關鍵幀地圖的語義預測,相比單視角圖片訓練出來的網絡上的語義預測,融合的一致性更高。咱們的網絡架構基於最新的用於RGB和深度圖像融合的單視角深度學習方法來進行語義風格,而且經過多尺度偏差最小化優化了這一方法的效果。咱們使用RGB-D SLAM獲得相機軌跡,而且將RGB-D圖像的預測扭曲成ground-truth的標註過的幀,以在訓練期間提升多視角的一致性。(不是很理解)(We obtain the camera trajectory using RGB-D SLAM and warp the predictions of RGB-D images into ground-truth annotated frames in order to enforce multi-view consistency during training.)在測試時,多視角的預測被融合到關鍵幀當中去。咱們提出並分析了在訓練和測試過程當中提升多視角一致性的方法。咱們評價了多視角一致性訓練的優勢,並指出,深度特徵的池化和多視角的融合,可以提高基於NYUDv2數據集評價指標的語義分割的性能。咱們端到端方式訓練的網絡,在單視角分割和多視角語義融合方面,都取得了在NYUDv2數據集下,state-of-art的效果。
注:NYUDv2數據集 數據集下載連接
用於室內場景語義分割的RGB-D圖像數據集,來自Kinect,1449對已標註的RGB-Depth圖像,40萬張未標註圖像。
框架
另,有一篇我很感興趣的論文,不過跟SLAM沒有結合,亮點在於街景的語義分割
Pohlen T, Hermans A, Mathias M, et al. Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes[J]. 2016.
用於街景語義分割的全分辨率殘差網絡
做者開放了源代碼~~https://github.com/TobyPDE/FRRNdom
1.2.3 端到端SLAM
1.3 研究現狀總結
用深度學習方法替換傳統slam中的一個/幾個模塊:
目前還不能達到超越傳統方法的效果,相較傳統SLAM並無很明顯的優點(標註的數據集少且不全,使用視頻作訓練數據的很是少。SLAM中不少問題都是數學問題,深度學習並不擅長等等緣由)。
在傳統SLAM之上加入語義信息
語義SLAM算是在擴展了傳統SLAM問題的研究內容,如今出現了一些將語義信息集成到SLAM的研究,好比說用SLAM系統中獲得的圖像之間的幾何一致性促進圖像語義分割,也能夠用語義分割/建圖的結果促進SLAM的定位/閉環等,前者已經有了一些研究,不過仍是集中於室內場景,後者貌似尚未什麼相關研究。若是SLAM和語義分割可以相互促進相輔相成,應該能達到好的效果。
另:使用SLAM幫助構建大規模的圖像之間有對應關係的數據集,能夠下降深度學習數據集的標註難度吧,應該也是一個SLAM助力深度學習的思路。