點擊上方「小白學視覺」,選擇加"星標"或「置頂」算法
重磅乾貨,第一時間送達微信
![](http://static.javashuo.com/static/loading.gif)
雙目立體視覺是機器視覺的一種重要形式,其原理是基於視差圖像造成設備,使用從兩個不一樣位置獲取的物體圖像,經過計算圖像之間的對應點的位置誤差來得到三個對象的三維幾何信息。
網絡
YOLO最初是由約瑟夫·雷德蒙(Joseph Redmon)創做的,用於檢測物體。物體檢測是一種計算機視覺技術,它經過在對象周圍繪製邊框並標識給定框也屬於的類標籤來對對象進行定位和標記。與大型NLP不同,YOLO設計得很小,能夠爲設備上的部署提供實時推理速度。架構
文獻[1]提出了一種在立體圖像方法中充分利用稀疏,密集,語義和幾何信息的三維物體檢測方法,稱爲立體R-CNN,用於自動駕駛。app
Stereo R-CNN的網絡體系結構將輸出立體框,關鍵點,尺寸和視點角,而後輸出3D框估計和密集3D框對齊模塊。
性能
Faster R-CNN擴展爲立體信號輸入,以同時檢測和關聯左右圖像中的對象。稀疏的關鍵點,視點和對象尺寸是經過在三維區域提議網絡以後添加其餘分支來預測的,該分支網絡與2D左右框組合以計算3D粗略對象邊界框。而後,經過使用左RoI和右RoI的基於區域的光度對齊來恢復準確的3D邊界框。測試
該方法不須要輸入深度和3D位置,可是效果比全部現有的基於徹底監督的圖像方法都要好。在具備挑戰性的KITTI數據集上進行的實驗代表,該方法在3D檢測和3D定位任務上的性能要比最早進的基於立體的方法好30%左右。flex
網絡架構ui
立體RPNspa
該模型基於傳統的RPN網絡,首先從左右圖像中提取對位特徵,而後將不一樣比例的特徵鏈接在一塊兒。特徵提取後,利用3×3卷積層減小通道,而後是兩個同級徹底鏈接的圖層,用於對每一個輸入位置的對象性和迴歸框偏移進行分類,並使用預約義的多尺度框進行錨定。對於客觀性分類,真值框定義爲左右圖像的聯合GT框。
當與真值框的交集大於0.7時,錨點被標記爲正樣本;若是小於0.3,則將錨點標記爲正樣本。分類任務的候選幀包含左右真實值幀區域的信息。
RPN分類和迴歸的不一樣目標分配。來源[1]
對於立體框迴歸,他們計算從新定位到目標獲取聯合GT框中包含的左GT框和右GT框的正錨的偏移,而後分別爲左迴歸和右迴歸指定偏移。
要返回的參數定義爲[u,w,u',w',v,h],它們是左對象的水平位置和寬度,右對象的水平位置和寬度以及垂直位置和高度。由於輸入是校訂後的左右圖像,因此能夠認爲左右對象在垂直方向上對齊。
每一個左、右目的建議都是經過相同的錨生成的,而且天然而然地,左、右目的建議是相關的。經過NMS以後,保留左,右眼仍然存在的提案關聯對,進行前2000個培訓,並使用前300個進行測試。
立體R-CNN
在立體聲RPN以後,將ROI對齊操做應用於左右特徵圖。對應於concat的左右ROI功能輸入到兩個連續的徹底鏈接的層中。
使用四個分支分別預測:
對象類
與立體聲rpn一致的立體聲包圍盒,左右對象的高度已對齊;
尺寸,首先計算平均尺寸,而後預測相對數量;
視點角
這裏的迴歸部分與立體RPN一致,重點在於視點角度。
假設物體的方向爲θ,而且汽車中心與相機中心之間的方位角爲β,則視點的角度爲α=θ+β。來源[1]
使用θ表示圖像每一幀中車輛的運動方向。β表示目標相對於相機中心的方位角。圖片中的三輛汽車具備不一樣的方向,但它們在ROI圖像上的投影徹底相同。
定義迴歸的視角α=θ+β以免中斷,將訓練目標設置爲[sinα,cosα]而不是角度值。
除了立體框和視點角以外,他們還注意到投影到邊界框的3D邊界框的角能夠提供更嚴格的約束。
3D語義關鍵點,2D透視關鍵點和邊界關鍵點的說明。來源[1]
與Mask RCN N 相似的結構用於預測關鍵點。定義了四個3D語義關鍵點,即,車輛底部的3D角點。同時,將這四個點投影到圖像上以得到四個透視關鍵點。這一點在3D bbox迴歸中起做用,咱們將在下一部分中介紹它。在關鍵點檢測任務中,使用Roi Align得到的14 x 14特徵圖。卷積和解卷積後,最終得到6 x 28 x 28的特徵圖。
爲了簡化計算,它們將高度通道求和並將6×28×28轉換爲6×28,其中前4個通道表明將4個關鍵點投影到相應的u座標的機率,後兩個通道表明機率左右邊界上的關鍵點的集合。
3D Box估計
使用稀疏關鍵點信息和2D邊界框信息,能夠估算出粗糙的3D邊界框。
3D包圍盒的狀態被定義爲x = {x,y,z,θ},其分別表示3D中心的點座標和水平方向上的偏轉角。
給定左右2D邊界框,透視關鍵點和迴歸尺寸,能夠經過最小化二維反投影的偏差來得到3D邊界框。
從立體邊界框和透視關鍵點中提取了七個測量參數:
它們表示左2D邊界框的左,上,右和下邊界,右2D邊界框的左和右半徑以及透視關鍵點座標u。每一個參數都須要經過相機內部參數進行歸一化。給定透視關鍵點,能夠推斷出3D邊界框的角和2D邊界框的邊緣之間的對應關係。
密集3D框對齊
對於左圖像中有效ROI區域的每一個歸一化像素座標值,圖像偏差定義爲:
I l,Ir表明左右圖像透視圖的三通道RGB矢量。和,
是像素i和3D邊界框中心的深度誤差值,b是基線的長度,只有z是咱們須要求解Objective變量的值。
他們使用雙線性插值來獲取正確圖像中的子像素值。當前的匹配成本定義爲覆蓋有效ROI區域中全部像素的平方差之和:
中心點深度值z能夠經過最小化當前匹配成本E來計算。咱們能夠經過枚舉深度值來加快最小化成本的過程。咱們枚舉初始值周圍每0.5米總共有50個深度值,以獲得一個粗略的深度值,而後枚舉每0.05米周圍就總共有20個深度值,以獲得一個精確的深度值。
該方法避免了在全局深度估計過程當中由一些無效像素引發的中斷問題,而且整個方法更加健壯。
參考文獻
Li, Peiliang, Xiaozhi Chen, and Shaojie Shen. 「Stereo R-CNN based 3D Object Detection for Autonomous Driving.」 arXiv preprint arXiv:1902.09738 (2019).
Chabot, M. Chaouch, J. Rabarisoa, C. Teuli`ere, and T. Chateau. Deep manta: A coarse-to-fine many-task net-work for joint 2d and 3d vehicle analysis from monocularimage. InProc. IEEE Conf. Comput. Vis. Pattern Recog-nit.(CVPR), pages 2040–2049, 2017.
J.-R. Chang and Y.-S. Chen. Pyramid stereo matching net-work. InProceedings of the IEEE Conference on ComputerVision and Pattern Recognition, pages 5410–5418, 2018.
X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urta-sun. Monocular 3d object detection for autonomous driving.InEuropean Conference on Computer Vision, pages 2147–2156, 2016.
X. Chen, K. Kundu, Y. Zhu, H. Ma, S. Fidler, and R. Urtasun.3d object proposals using stereo imagery for accurate objectclass detection. InTPAMI, 2017.
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-view 3dobject detection network for autonomous driving. InIEEECVPR, volume 1, page 3, 2017.
M. Engelcke, D. Rao, D. Z. Wang, C. H. Tong, and I. Posner.Vote3deep: Fast object detection in 3d point clouds usingefficient convolutional neural networks. InRobotics and Au-tomation (ICRA), 2017 IEEE International Conference on,pages 1355–1361. IEEE, 2017.
A. Geiger, P. Lenz, and R. Urtasun. Are we ready for au-tonomous driving? the kitti vision benchmark suite. InCom-puter Vision and Pattern Recognition (CVPR), 2012 IEEEConference on, pages 3354–3361. IEEE, 2012
交流羣
歡迎加入公衆號讀者羣一塊兒和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫學影像、GAN、算法競賽等微信羣(之後會逐漸細分),請掃描下面微信號加羣,備註:」暱稱+學校/公司+研究方向「,例如:」張三 + 上海交大 + 視覺SLAM「。請按照格式備註,不然不予經過。添加成功後會根據研究方向邀請進入相關微信羣。請勿在羣內發送廣告,不然會請出羣,謝謝理解~
本文分享自微信公衆號 - 小白學視覺(NoobCV)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。