深度學習結合SLAM研究總結

時間 2019-11-13

標籤深度學習結合 slam 研究總結简体版

原文原文鏈接

博客轉載自：https://blog.csdn.net/u010821666/article/details/78793225 原文標題：深度學習結合SLAM的研究思路/成果整理之

1. 深度學習跟SLAM的結合點

深度學習和slam的結合是近幾年比較熱的一個研究方向，具體的研究方向，我簡單分爲三塊，以下。html

1.1 深度學習結合SLAM的三個方向

用深度學習方法替換傳統SLAM中的一個/幾個模塊

特徵提取，特徵匹配，提升特徵點穩定性，提取點線面等不一樣層級的特徵點。
深度估計
位姿估計
重定位
其餘

在傳統SLAM之上加入語義信息

圖像語義分割
語義地圖構建

端到端的SLAM

其實端到端就不能算是SLAM問題了吧，SLAM是同步定位與地圖構建，端到端是輸入image輸出action，沒有定位和建圖。
- 機器人自主導航（深度強化學習）等react

1.2 相關的部分論文整理

1.2.1 用深度學習方法替換傳統SLAM中的一個/幾個模塊。

替換多個模塊

Tateno K, Tombari F, Laina I, et al. CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction[J]. arXiv preprint arXiv:1704.03489, 2017.
* 在有預測深度下的實時單目稠密SLAM*
（輸入：彩色圖 LSD-SLAM NYUDv2數據集 ICL-NUIM數據集）
摘要:
基於使用卷積神經網絡CNN進行深度預測的最新進展，本文研究了深度神經網絡生成的深度預測地圖，如何用於精確而稠密的重建，咱們提出了一種直接法單目SLAM中獲得的深度度量，如何與CNN預測獲得的稠密深度地圖天然地融合在一塊兒的方法。咱們的融合方法在圖像定位這一單目SLAM方法效果不佳的方面有優點。好比說低紋理區域，反之亦然。咱們證實了深度預測在估計重建的絕對尺度中應用能夠克服單目SLAM的主要限制。最後，咱們提出了高效融合稠密SLAM中單幀獲得的語義標籤的方法，從單視角中獲得了語義連貫的場景重建。基於兩個參照數據集的評測結果代表咱們的方法有良好的魯棒性和準確性。

注：
NYUDv2數據集數據集下載連接
用於室內場景語義分割的RGB-D圖像數據集，來自Kinect，1449對已標註的RGB-Depth圖像，40萬張未標註圖像。
ICL-NUIM數據集數據集下載連接
包含兩個場景的圖像：起居室和辦公室與TUM RGB-D 數據集的評測工具兼容。幀率30，每段大概幾十秒，因此一共幾千張圖吧。

Li R, Wang S, Long Z, et al. UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning[J]. arXiv preprint arXiv:1709.06841, 2017.
UnDeepVO:使用無監督深度學習的單目視覺里程計
（雙目圖像訓練數據集單目圖像測試 KITTI數據集）
摘要：
咱們在本文中提出了一種名叫UnDeepVO的新型的單目視覺里程計系統，UnDeepVO能夠估計單目相機的6自由度位姿以及使用深度神經網絡估計單目視角的深度。UnDeepVO有兩個顯著的特性：一個是無監督深度學習方法，另外一個是絕對尺度回覆。特別的，咱們使用了雙目的圖像對訓練UnDeepVO來恢復尺度，而後使用連續的單目圖像進行了測試。所以，UnDeepVO是一個單目系統。訓練網絡的損失函數是基於時間和空間稠密信息定義的。圖一是系統的概覽圖。基於KITTI數據集的實驗代表UnDeepVO在位姿估計方面，準確性高於其餘的單目VO方法。

特徵相關（特徵提取匹配等）

DeTone D, Malisiewicz T, Rabinovich A. Toward Geometric Deep SLAM[J]. arXiv preprint arXiv:1707.07410, 2017.
面向幾何的深度SLAM
（兩個CNN，角點提取和匹配，實時，單核CPU30FPS）
摘要：
咱們展現了一個使用了兩個深度卷積神經網絡的點跟蹤系統。第一個網絡，MagicPoint，提取單張圖像的顯著性2D點。這些提取出來的點能夠用做SLAM，由於他們在圖像中相互獨立且均勻分佈。咱們比較了這個網絡和傳統的點檢測方法，發現二者在圖像有噪聲存在是存在明顯的性能差別。當檢測點是幾何穩定的時候，轉換估計會變得更簡單，咱們設計了第二個網絡，名爲MagicWarp,它對MagicPoint的輸出，一系列點圖像對進行操做，而後估計跟輸入有關的單應性。這種轉換引擎和傳統方法的不一樣在於它只是用點的定位，而沒有使用局部點的描述子。兩個網絡都使用了簡單的合成數據進行訓練，不須要安規的外部相機創建ground truth和先進的圖形渲染流水線。系統速度快且輕量級，能夠在單核CPU上達到30幀每秒的速度。

Lecun Y. Stereo matching by training a convolutional neural network to compare image patches[M]. JMLR.org, 2016.
經過訓練比較圖像塊的卷積神經網絡進行立體匹配
（輸入：左右圖 KITTI數據集 Middlebury數據集）
摘要：
咱們提出了一種從已校訂過的圖像對中提取深度信息的方法。咱們的方法側重於大多數stereo算法的第一步：匹配開銷計算。咱們經過使用卷積神經網絡從小圖像塊中學習類似性度量來解決這個問題。訓練採用有監督方式，使用類似和不類似的成對圖像塊構建了一個二分類數據集。咱們研究了用於此項任務的兩種網絡架構：一個針對速度進行調整，另外一個針對精度。卷積神經網絡的輸出被用來初始化stereo立體匹配開銷。在這以後，進行一系列後處理操做：基於交叉的開銷聚合，半全局匹配，左右圖一致性檢驗，亞像素加強，中值濾波和雙邊濾波。咱們在KITTI2012，KITTI2015數據集，Middlebury雙目數據集上評測了本身的方法，結果顯示咱們的方法優於此三個數據集上的其餘同類方法。

注：Middlebury Stereo Datasets
數據集下載連接git

Kwang Moo Yi, Eduard Trulls, Vincent Lepetit, et al. LIFT: Learned Invariant Feature Transform[J]. 2016:467-483.
LIFT：經過學習生成的不變特徵變換
（比SIFT特徵更加稠密，已開源）
摘要：
咱們提出了一種新型的深度網絡架構，實現了完整的特徵點處理流水線：檢測，方向估計和特徵描述。雖然以前的工做已經分別成功地解決了這幾個問題，但咱們展現瞭如何將這三個問題結合起來，通知保持端到端的可微性。咱們證實了咱們的深度流水線方法，性能優於許多基準數據集的state-of-the-art的方法，且不須要再訓練。

左邊是SIFT，右邊是LIFT
源代碼 https://github.com/cvlab-epfl/LIFTgithub

位姿估計，深度估計

Clark R, Wang S, Wen H, et al. VINet: Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem[C]//AAAI. 2017: 3995-4001.
VINet:將視覺-慣性里程計看作一個序列到序列的學習問題（……這個怎麼翻）
（使用了圖像和IMU數據，CNN和RNN）
摘要：
本文中咱們提出了一種使用視覺和慣性數據作運動估計的，流形上的？序列到序列的學習方法。在中間特徵表示這一級別上融合數據的視覺-慣性里程計進行端到端訓練，是咱們已知的最好的方法（？）。咱們的方法相比傳統方法有不少優點。具體來講，它不須要相機和IMU數據之間進行冗長乏味的人工同步，也一樣不須要IMU和相機數據之間進行人工標定。另外一個優勢是咱們的模型能夠天然且巧妙地結合特定區域的信息，能夠顯著減小漂移。在標定數據準確的狀況下，咱們的方法跟傳統的state-of-the-art的方法效果旗鼓至關，在存在標定和同步偏差的狀況下，咱們的方法能夠經過訓練達到比傳統方法更好的的效果。

Garg R, Vijay K B G, Carneiro G, et al. Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue[J]. 2016:740-756.
用於單視角深度估計的無監督CNN：？？
（KITTI數據集無監督學習）
摘要：
當前深度卷積神經網絡的一個顯著缺點就是須要使用大量人工標註的數據來進行訓練。本項研究中，咱們提出了一種無監督的框架來使用深度卷積神經網絡進行單視角深度預測，不須要先行訓練和標註過的ground-truth深度。咱們經過一種相似於自編碼的方式訓練網絡。訓練過程當中，咱們認爲有着微小且已知的相機運動的源圖像和目的圖像是一個stereo對。咱們訓練卷積編碼器來預測源圖像的深度圖。爲此，咱們顯式構造了一個使用預測深度和已知的視角間位移的目的圖像的inverse warp反變換？，用於重建源圖像。重建過程當中的光測偏差是編碼器的重建損失。以這樣的方法獲取訓練數據比同類系統要簡單得多，不須要人工標註和深度傳感器與相機之間的標定。在KITTI數據集上，執行單視角深度估計任務時，咱們的網絡，在保證相同性能狀況下，訓練時間比其餘state-of-the-art的有監督方法少一半。

Xu J, Ranftl, René, Koltun V. Accurate Optical Flow via Direct Cost Volume Processing[J]. 2017.
光流法不太關注，這個名字也是翻譯不出來…………
英文摘要：
We present an optical flow estimation approach that operates on the full four-dimensional cost volume. This direct
approach shares the structural benefits of leading stereo matching pipelines, which are known to yield high accuracy. To this day, such approaches have been considered impractical due to the size of the cost volume. We show that the full four-dimensional cost volume can be constructed in a fraction of a second due to its regularity. We then exploit this regularity further by adapting semi-global matching to the four-dimensional setting. This yields a pipeline that achieves significantly higher accuracy than state-of-the-art optical flow methods while being faster than most. Our approach outperforms all published general-purpose optical flow methods on both Sintel and KITTI 2015 benchmarks.

Liao Y, Huang L, Wang Y, et al. Parse Geometry from a Line: Monocular Depth Estimation with Partial Laser Observation[J]. 2017.
一條線上的解析幾何：使用部分激光觀測的單目深度估計
（輸入：單目圖像和2D激光距離數據 NYUDv2數據集 KITTI數據集）
激光的也不太關注。
Abstract— Many standard robotic platforms are equipped with at least a fixed 2D laser range finder and a monocular camera. Although those platforms do not have sensors for 3D depth sensing capability, knowledge of depth is an essential part in many robotics activities. Therefore, recently, there is an increasing interest in depth estimation using monocular images. As this task is inherently ambiguous, the data-driven estimated depth might be unreliable in robotics applications. In this paper, we have attempted to improve the precision of monocular
depth estimation by introducing 2D planar observation from the remaining laser range finder without extra cost. Specifically, we construct a dense reference map from the sparse laser range data, redefining the depth estimation task as estimating the distance between the real and the reference depth. To solve the problem, we construct a novel residual of residual neural network, and tightly combine the classification and regression losses for continuous depth estimation. Experimental results suggest that our method achieves considerable promotion compared to the state-of-the-art methods on both NYUD2 and KITTI, validating the effectiveness of our method on leveraging the additional sensory information. We further demonstrate the potential usage of our method in obstacle avoidance where our methodology provides comprehensive depth information compared to the solution using monocular camera or 2D laser range finder alone。

Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[J]. arXiv preprint arXiv:1704.07813, 2017.
視頻深度和自運動的無監督學習 SFM-learner
（訓練使用未標註單目視頻片斷，已開源）
摘要：咱們提出了一個用非結構化視頻序列進行單目深度和相機運動估計的無監督學習網絡。和最近的幾項研究相同的是，咱們使用了端到端的方法，用視圖合成做爲監督信號，不一樣的是，咱們的方法是徹底無監督的，只須要少許的單目視頻序列便可訓練。咱們的方法使用了單視角深度和多視角位姿兩個網絡，使用計算出的深度和位姿將附近視圖變換爲目標視圖生成損失函數（？）。所以，訓練過程當中網絡經過損失函數鏈接在一塊兒，可是測試時，兩個網絡能夠獨立用於應用。KITTI數據集上的經驗評測證實咱們的方法有如下優勢：1）與使用ground-truth位姿或深度進行訓練的有監督方法相比，在估計單目深度是效果至關。2）與有可比較輸入設置的現有SLAM系統相比，位姿估計性能良好。

源代碼 https://github.com/tinghuiz/SfMLearner

Vijayanarasimhan S, Ricco S, Schmid C, et al. SfM-Net: Learning of Structure and Motion from Video[J]. arXiv preprint arXiv:1704.07804, 2017.
SFM-Net：從視頻中學習結構與運動
SfM-Net是SfM-learner的升級版
摘要：
咱們提出了SfM-Net，一個geometry-aware幾何敏感？的神經網絡用於視頻中的運動估計，此網絡分解了基於場景和對象深度的幀間像素運動，相機運動，3D對象旋轉和平移。給定一個幀的序列，SfM-Net預測深度，分割，相機和剛體運動，而後將這些轉換爲稠密幀間運動場（光流），可微的扭曲幀最後作像素匹配和反向傳播。模型能夠經過不一樣程度的監督方法進行訓練：1）自監督的投影光測偏差（photometric error）（徹底無監督）的方式，2）用自運動（相機運動）進行有監督訓練的方式，3）使用深度（好比說RGBD傳感器提供的）進行有監督訓練的方式。SfM-Net提取了有意義的深度估計併成功地估計了幀間的相機運動和評議。它還能在沒有監督信息提供的狀況下，成功分割出場景中的運動物體。

Benjamin Ummenhofer, Huizhong Zhou, Jonas Uhrig, et al. DeMoN: Depth and Motion Network for Learning Monocular Stereo[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017:5622-5631.
DeMoN：學習單雙目？深度和運動的網絡
（已開源）
摘要：
本文中咱們將運動中的結構公式化並將其做爲一個學習問題。咱們端到端地訓練了一個卷積網絡用於從連續無約束的圖像對中計算深度和相機運動。整個架構由多層編解碼網絡組成，核心部分是一個能夠改進自身預測的迭代網絡。這個網絡不只估計深度和運動，還能夠估計表面法線，圖像之間的光流和匹配的髒新都。基於空間相對差別的損失函數是這個方法中相當重要的組成部分。相比於傳統的從運動中獲得兩幀結構的方法，咱們的方法更加準確和魯棒。跟流行的從單張圖像獲取深度的網絡不一樣的是，DeMoN學習了匹配的概念，可以對訓練過程當中看不到的結構更好地泛化。

使用pose, depth做爲監督信息，來估計pose和depth。
源代碼 https://github.com/lmb-freiburg/demon

重定位

可能重定位用深度學習比較難作吧，畢竟是個偏幾何的問題，暫時不太關注
- Wu J, Ma L, Hu X. Delving deeper into convolutional neural networks for camera relocalization[C]// IEEE International Conference on Robotics and Automation. IEEE, 2017.
- Alex Kendall, Matthew Grimes, Roberto Cipolla. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization[J]. 2015, 31:2938-2946.
PoseNet:用於實時六自由度相機重定位的卷積神經網絡。
PoseNet是2015年的研究成果，算是SLAM跟深度學習結合的比較有開創性的成果。

源代碼 https://github.com/alexgkendall/caffe-posenet算法

另有一篇頗有意思的論文
- Vo N, Jacobs N, Hays J. Revisiting IM2GPS in the Deep Learning Era[J]. 2017.
深度學習時代圖像-GPS的重定位
思路頗有意思，使用一張照片在全世界範圍內進行定位。
網絡

1.2.2 在傳統SLAM之上加入語義信息

圖像語義分割&語義地圖構建

Li X, Belaroussi R. Semi-Dense 3D Semantic Mapping from Monocular SLAM[J]. arXiv preprint arXiv:1611.04144, 2016.
單目SLAM的半稠密語義建圖
（LSD-SLAM,室內外場景)
摘要：
將計算機視覺中的幾何與圖像相結合，已經被證實是機器人在各類各樣的應用中的一種頗有發展前景的解決方案。stereo相機和RGBD傳感器被普遍用於實現快速三維重建和密集軌跡跟蹤。然而，它們缺少不一樣規模環境無縫切換的靈活性，好比說，室內和室外場景。此外, 在三維建圖中，語義信息仍然很難獲取。咱們經過結合state-of-art的深度學習方法和半稠密的基於單目相機視頻流的SLAM，應對此種挑戰。在咱們的方法中，二維的語義信息，結合了有空間一致性的相連關鍵幀之間的correspondence對應關係以後，再進行三維建圖。在這裏並不須要對一個序列裏的每個關鍵幀進行語義分割，因此計算時間相對合理。咱們在室內室外數據集上評測了咱們的方法，在經過baseline single frame prediction基準單幀預測實現二維語義標註方面取得了效果的提高。
架構

基本框架圖以下：
輸入RGB圖像->選擇關鍵幀並refine->2D語義分割->3D重建，語義優化
app

Sünderhauf N, Pham T T, Latif Y, et al. Meaningful Maps With Object-Oriented Semantic Mapping[J]. 2017.
這個題目怎麼翻譯是好？面向對象語義建圖的有意義地圖
（輸入：RGB-D圖像 SSD ORB-SLAM2）
摘要：
智能機器人必須理解它們周圍場景的幾何和語義兩方面的特性，才能跟環境進行有意義地交互。到目前爲止，大多數研究已經分別解決了這兩個建圖問題，側重於幾何信息建圖或者是語義信息建圖。在本文中咱們解決了，既包含有語義意義和對象級別的實體，也包含基於點或網格的幾何表示的環境地圖構建的問題。咱們同時也對已知對象類別中看不到的實例創建了幾何點雲模型，並創建了以這些對象模型爲中心實體的地圖。咱們的系統利用了稀疏的基於特徵的RGB-D SLAM，基於圖像的深度學習目標檢測方法和三維無監督的分割方法。
基本框架圖以下：
輸入RGB-D圖像 -> ORB-SLAM2應用於每一幀，SSD（Single Shot MultiBox Detector）用於每個關鍵幀進行目標檢測，3D無監督分割方法對於每個檢測結果生成一個3D點雲分割 -> 使用相似ICP的匹配值方法進行數據關聯，以決定是否在地圖中建立新的對象或者跟已有對象創建檢測上的關聯 -> 地圖對象的3D模型（3D點雲分割，指向ORB-SLAM2中位姿圖的指針，對每一個類別的累計置信度）

Ma L, Stückler J, Kerl C, et al. Multi-View Deep Learning for Consistent Semantic Mapping with RGB-D Cameras[J]. 2017.
基於RGB-D相機和多視角深度學習的一致語義建圖
（NYUDv2數據集）
摘要：
視覺場景理解是使機器人可以在環境中進行有目的的行動的一項重要的能力。本文中，咱們提出了一種新型的深度神經網絡方法以在RGB-D圖像序列中進行語義分割。主要的創新點在於用一種自監督的方式訓練咱們的網絡用於預測多視角一致的語義信息。在測試時，此網絡的基於語義關鍵幀地圖的語義預測，相比單視角圖片訓練出來的網絡上的語義預測，融合的一致性更高。咱們的網絡架構基於最新的用於RGB和深度圖像融合的單視角深度學習方法來進行語義風格，而且經過多尺度偏差最小化優化了這一方法的效果。咱們使用RGB-D SLAM獲得相機軌跡，而且將RGB-D圖像的預測扭曲成ground-truth的標註過的幀，以在訓練期間提升多視角的一致性。（不是很理解）（We obtain the camera trajectory using RGB-D SLAM and warp the predictions of RGB-D images into ground-truth annotated frames in order to enforce multi-view consistency during training.）在測試時，多視角的預測被融合到關鍵幀當中去。咱們提出並分析了在訓練和測試過程當中提升多視角一致性的方法。咱們評價了多視角一致性訓練的優勢，並指出，深度特徵的池化和多視角的融合，可以提高基於NYUDv2數據集評價指標的語義分割的性能。咱們端到端方式訓練的網絡，在單視角分割和多視角語義融合方面，都取得了在NYUDv2數據集下，state-of-art的效果。

注：NYUDv2數據集數據集下載連接
用於室內場景語義分割的RGB-D圖像數據集，來自Kinect，1449對已標註的RGB-Depth圖像，40萬張未標註圖像。
框架

Mccormac J, Handa A, Davison A, et al. SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks[J]. 2016.
語義融合：使用CNN的稠密3D語義建圖
（NYUDv2數據集室內場景實時）
摘要：
使用視覺傳感進行更魯棒，更準確和細節更豐富的建圖，已經被證實有利於機器人在各類各樣應用中的運用。在接下來的機器人智能和直觀的用戶交互中，地圖須要擴展幾何和外觀信息–它們須要包含語義信息。咱們使用卷積神經網絡CNNs和state-of-the-art的稠密SLAM系統，以及提供了即便在多圈掃描軌跡時，也能獲得室內RGB-D視頻中幀間的長期稠密correspondence對應關係的ElasticFusion來解決這一問題。這些對應關係使得CNN的多視角語義預測，機率上融合到地圖中去。此方法不只可以生成有效的語義3D地圖，也代表在NYUv2數據集上,融合多個預測可以提高預測性能，即便是基於基準單幀預測的2D語義標註。同時咱們也證實在預測視角變化更多，重建數據集更小時，單幀分割的性能會進一步獲得提高。咱們的系統可以在實時的狀況下有交互地使用，幀率能達到～25HZ。

* Bowman S L, Atanasov N, Daniilidis K, et al. Probabilistic data association for semantic SLAM[C]// IEEE International Conference on Robotics and Automation. IEEE, 2017:1722-1729.*
語義SLAM的機率數據關聯
（KITTI數據集 ORB-SLAM2 數學公式多室內外場景實時暫未開源）
摘要：
傳統的SLAM方法多依賴於低級別的幾何特徵：點線面等。這些方法不能給環境中觀察到的地標添加語義標籤。而且，基於低級特徵的閉環檢測依賴於視角，而且在有歧義和或重複的環境中會失效。另外一方面，目標識別方法能夠推斷出地標的類型和尺度，建議一個小而簡單的可識別的地標集合，以用於視角無關的無歧義閉環。在同一類物體有多個的地圖中，有一個很關鍵的數據關聯問題。當數據關聯和識別是離散問題時，一般能夠經過離散的推斷方法來解決，傳統SLAM會對度量信息進行連續優化。本文中，咱們將傳感器狀態和語義地標位置的優化問題公式化，其中語義地標位置中集成了度量信息，語義信息和數據關聯信息，而後咱們由將這個優化問題分解爲相互關聯的兩部分：離散數據關聯和地標類別機率的估計問題，以及對度量狀態的連續優化問題。估計的地標和機器人位姿會影響到數據關聯和類別分佈，數據關聯和類別分佈也會反過來影響機器人-地標位姿優化。咱們的算法性能在室內和室外數據集上進行了檢驗論證。

另，有一篇我很感興趣的論文，不過跟SLAM沒有結合，亮點在於街景的語義分割
Pohlen T, Hermans A, Mathias M, et al. Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes[J]. 2016.
用於街景語義分割的全分辨率殘差網絡
做者開放了源代碼～～https://github.com/TobyPDE/FRRNdom

1.2.3 端到端SLAM

Zhu Y, Mottaghi R, Kolve E, et al. Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning[J]. 2016.
使用DRL深度增強學習實現機器人自主導航
摘要：
深度強化學習中有兩個較少被說起的問題：1. 對於新的目標泛化能力不足，2. 數據低效，好比說，模型須要幾個（一般開銷較大）試驗和偏差集合，使得其應用於真實世界場景時並不實用。在這篇文章中，咱們解決了這兩個問題，並將咱們的模型應用於目標驅動的視覺導航中。爲了解決第一個問題，咱們提出了一個actor-critic演員評論家模型，它的策略是目標函數以及當前狀態，可以更好地泛化。爲了解決第二個問題，咱們提出了 AI2-THOR框架，它提供了一個有高質量的3D場景和物理引擎的環境。咱們的框架使得agent智能體可以採起行動並和對象之間進行交互。所以，咱們能夠高效地收集大量訓練樣本。咱們提出的方法 1）比state-of-the-art的深度強化學習方法收斂地更快，2）能夠跨目標跨場景泛化，3）經過少量微調就能夠泛化到真實機器人場景中（儘管模型是在仿真中訓練的）4）不須要特徵工程，幀間的特徵匹配和對於環境的特徵重建，是能夠端到端訓練的。
視頻連接
https://youtu.be/SmBxMDiOrvs

Gupta S, Davidson J, Levine S, et al. Cognitive Mapping and Planning for Visual Navigation[J]. 2017.
用於視覺導航的感知建圖和規劃
摘要：
咱們提出了一個用於在陌生環境中導航的神經網絡結構。咱們提出的這個結構以第一視角進行建圖，並面向環境中的目標進行路徑規劃。 The Cognitive Mapper
and Planner (CMP)主要依託於兩個觀點：1.一個用於建圖和規劃的統一的聯合架構中，建圖由規劃的需求所驅動的。2. 引入空間記憶，使得可以在一個並不完整的觀察集合的基礎之上進行規劃。CMP構建了一個自上而下的belief map置信地圖，而且應用了一個可微的神經網絡規劃器，在每個時間步驟中決策下一步的行動。對環境積累的置信度使得能夠追蹤已被觀察到的區域。咱們的實驗代表CMP的性能優於reactive strategies反應性策略和standard memory-based architectures 標準的基於記憶的體系結構兩種方法，而且在陌生環境中表現良好。另外，CMP也能夠完成特定的語義目標，好比說「go to a chair」到椅子那兒去。

圖1：整個網絡的架構：咱們學習的導航網絡由構圖和規劃模塊組成。構圖模塊負責將環境信息引入到空間記憶中去，空間記憶對應於一個以自身爲中心的環境地圖。規劃器使用這樣的空間記憶與導航目標一塊兒輸出導航行爲。構圖模塊沒有明顯的監督機制，而是在學習過程當中天然地呈現出來。
谷歌大法好～代碼，模型，演示視頻連接 https://sites.google.com/view/cognitive-mapping-and-planning/

1.3 研究現狀總結

用深度學習方法替換傳統slam中的一個/幾個模塊：
目前還不能達到超越傳統方法的效果，相較傳統SLAM並無很明顯的優點（標註的數據集少且不全，使用視頻作訓練數據的很是少。SLAM中不少問題都是數學問題，深度學習並不擅長等等緣由）。

在傳統SLAM之上加入語義信息
語義SLAM算是在擴展了傳統SLAM問題的研究內容，如今出現了一些將語義信息集成到SLAM的研究，好比說用SLAM系統中獲得的圖像之間的幾何一致性促進圖像語義分割，也能夠用語義分割/建圖的結果促進SLAM的定位/閉環等，前者已經有了一些研究，不過仍是集中於室內場景，後者貌似尚未什麼相關研究。若是SLAM和語義分割可以相互促進相輔相成，應該能達到好的效果。

另：使用SLAM幫助構建大規模的圖像之間有對應關係的數據集，能夠下降深度學習數據集的標註難度吧，應該也是一個SLAM助力深度學習的思路。