CVPR 2019 是機器視覺方向最重要的學術會議,本屆大會共吸引了來自全世界各地共計 5160 篇論文,共接收 1294 篇論文,投稿數量和接受數量都創下了歷史新高,其中與自動駕駛相關的論文、項目和展商也是扎堆亮相,成爲本次會議的「新寵」。html
障礙物軌跡預測挑戰賽(Trajectory Prediction Challenge)隸屬於CVPR 2019 Workshop on Autonomous Driving — Beyond Single Frame Perception(自動駕駛研討會),由百度研究院機器人與自動駕駛實驗室舉辦,側重於自動駕駛中的多幀感知,預測和自動駕駛規劃,旨在彙集來自學術界和工業界的研究人員和工程師,討論自動駕駛中的計算機視覺應用。美團無人配送與視覺團隊此項比賽得到了第一名。算法
在該比賽中,參賽隊伍須要根據每一個障礙物過去3秒的運動軌跡,預測出它在將來3秒的軌跡。障礙物共有四種類型,包括行人、自行車、大型機動車、小型機動車。每種障礙物的軌跡用軌跡上的採樣點來表示,採樣的頻率是2赫茲。美團的方法最終以1.3425的成績取得該比賽的第一名,同時咱們也在研討會現場分享了算法和模型的思路。網絡
軌跡預測競賽數據來源於在北京蒐集的包含複雜交通燈和路況的真實道路數據,用於競賽的標註數據是基於攝像頭數據和雷達數據人工標註而來,其中包含各類車輛、行人、自行車等機動車和非機動車。測試
訓練數據:每一個道路數據文件包含一分鐘的障礙物數據,採樣頻率爲每秒2赫茲,每行標註數據包含障礙物的ID、類別、位置、大小、朝向信息。優化
測試數據:每一個道路數據文件包含3秒的障礙物數據,採樣頻率爲每秒2赫茲,目標是預測將來3秒的障礙物位置。設計
平均位移偏差:Average displacement error(ADE),每一個預測位置和每一個真值位置之間的平均歐式距離差值。3d
終點位移偏差:Final displacement error(FDE),終點預測位置和終點真值位置之間的平均歐式距離差值。code
因爲該數據集包含不一樣類型的障礙物軌跡數據,因此採用根據類別加權求和的指標來進行評價。cdn
此次競賽要解決的預測問題不依賴地圖和其餘交通訊號等信息,屬於基於非結構化數據預測問題,這類問題如今主流的方法主要根據交互性將其區分爲兩類:1. 獨立預測,2. 依賴預測。htm
獨立預測是隻基於障礙物歷史運動軌跡給出將來的行駛軌跡,依賴預測是會考慮當前幀和歷史幀的全部障礙物的交互信息來預測全部障礙物將來的行爲。
考慮交互信息的依賴預測,是當前學術界研究比較多的一類問題。可是經調研總結,咱們發現其更多的是在研究單一類別的交互,好比在高速公路上都是車輛,那預測這些車輛之間的交互;再好比在人行道上預測行人的交互軌跡。預測全部類別障礙物的之間的交互的方法不多。
如下是作行人交互預測的兩個方法模型:
方法1. Social GAN,分別對每一個障礙車輸入進行Encoder,而後經過一個統一的Pooling模塊提取交互信息,再單獨進行預測。
方法2. StarNet,使用一個星型的LSTM網絡,使用Hub網絡提取全部障礙物的交互信息,而後再輸出給每一個Host網絡獨立預測每一個障礙物的軌跡。
拿到賽題以後,咱們首先對訓練數據作了分析,因爲最終的目標是預測障礙物位置,因此標註數據中的障礙物大小信息不過重要,只要根據類別來進行預測便可。
其次,分析朝向信息是否要使用,經統計發現真值標註的朝向信息很是不許確,從下圖能夠看到,大部分的標註方向信息都和軌跡方向有較大差距,所以決定不使用朝向信息進行預測。
而後,分析數據的完整性,在訓練過程當中每一個障礙物須要12幀數據,才能夠模擬測試過程當中使用6幀數據來預測將來6幀的軌跡。可是在真實蒐集數據的時候,沒有辦法保證數據的完整性,可能先後或中間均可能缺乏數據,所以,咱們根據先後幀的位置關係插值生成一些訓練數據,以填補數據的缺失。
最後,對數據作了加強,因爲咱們的方法不考慮障礙物之間的交互,僅依賴每一個障礙物自身的信息進行訓練,所以障礙物軌跡進行了旋轉、反向、噪聲的處理。
因爲此次軌跡預測的問題是預測全部類別的軌跡,因此使用解決單一類別的軌跡預測模型不適用於該問題,並且若是把全部的物體放在單一的交互模型中來,不能正確提取出不一樣障礙物之間的交互特徵。咱們嘗試了一些方法也證明了這一點。
所以在競賽中,咱們使用了多類別的獨立預測方法,網絡結構以下圖,該方法針對每一個類別構造一個LSTM的Encoder-Decoder模型,而且在Encoder和Decoder之間加入了Noise模塊,Noise模塊生成固定維度的高斯噪聲,將該噪聲和Encoder模塊輸出的LSTM狀態量進行連結做爲Decoder模塊的LSTM初始狀態量,Noise模塊主要做用是負責在多輪訓練過程當中增長數據的擾動,在推理過程當中經過給不一樣的Noise輸入,能夠生成多個不一樣的軌跡。
最終,須要在不一樣的軌跡輸出中選擇一個最優的軌跡,這裏採用了一個簡單的規則,選擇預測的軌跡方向和歷史軌跡方向最接近的軌跡做爲最終的軌跡輸出。
咱們僅使用了官方提供的數據進行訓練,按照前述數據加強方法先對數據進行加強,而後搭建網絡結構進行訓練,Loss採用Weighted Sum of ADE(WSADE),採用Adam優化方法,最終提交測試的WSADE結果爲1.3425。
方法 | WSADE |
---|---|
咱們的方法 | 1.3425 |
StarNet(基於交互的方法) | 1.8626 |
TrafficPredict(ApolloScape Baseline方法) | 8.5881 |
在此次競賽中,咱們嘗試了使用多類別的獨立預測方法,經過對數據加強和加入高斯噪聲,以及最終人工設計規則選擇最優軌跡的方法,在此次障礙物軌跡預測挑戰賽(Trajectory Prediction Challenge)中得到了較好的成績。可是,咱們認爲,基於交互的方法用的好的話應該會比這種獨立預測方法仍是要好,好比能夠設計多類別內部交互和類別間的交互。另外,也關注到如今有一些基於圖神經網絡的方法也應用在軌跡預測上,從此會在實際的項目中嘗試更多相似的方法,解決實際的預測問題。