ICRA 2020無人駕駛軌跡預測競賽冠軍的方法總結

行人軌跡預測問題是無人駕駛技術的重要一環,已成爲近年來的一項研究熱點。在機器人領域國際頂級會議ICRA 2020上,美團無人配送團隊在行人軌跡預測競賽中奪冠,本文系對該預測方法的一些經驗總結,但願能對你們有所幫助或者啓發。算法

1、背景

6月2日,國際頂級會議ICRA 2020舉辦了「第二屆長時人類運動預測研討會」。該研討會由博世有限公司、厄勒布魯大學、斯圖加特大學、瑞士洛桑聯邦理工聯合組織,同時在該研討會上,還舉辦了一項行人軌跡預測競賽,吸引了來自世界各地的104支隊伍參賽。美團無人配送團隊經過採用「世界模型」的交互預測方法,奪得了該比賽的第一名。微信

圖1 ICRA 2020 TrajNet++軌跡預測競賽

2、賽題簡介

本次競賽提供了街道、出入口、校園等十個複雜場景下的行人軌跡數據集,要求參賽選手根據這些數據集,利用行人在過去3.6秒的軌跡來預測其在將來4.8秒的運行軌跡。競賽使用FDE(預測軌跡和真實軌跡的終點距離)來對各類算法進行排名。ide

本次的賽題數據集,主要來源於各種動態場景下的真實標註數據和模擬合成數據,採集頻率爲2.5赫茲,即兩個時刻之間的時間差爲0.4秒。數據集中的行人軌跡都以固定座標系下的時序座標序列表示,而且根據行人的周圍環境,這些軌跡被分類成不一樣的類別,例如靜態障礙物、線性運動、追隨運動、避障行爲、團體運動等。在該比賽中,參賽隊伍須要根據每一個障礙物歷史9個時刻的軌跡數據(對應3.6秒的時間)來預測將來12個時刻的軌跡(對應4.8秒的時間)。性能

該競賽採用多種評價指標,這些評價指標分別對單模態預測模型和多模態預測模型進行評價。單模態模型是指給定肯定的歷史軌跡,預測算法只輸出一條肯定的軌跡;而多模態模型則會輸出多條可行的軌跡(或者分佈)。本次競賽的排名以單模態指標中的FDE指標爲基準。學習

3、方法介紹

其實,美團在不少實際業務中常常要處理行人軌跡預測問題,而行人軌跡預測的難點在於如何在動態複雜環境中,對行人之間的社交行爲進行建模。由於在複雜場景中,行人之間的交互很是頻繁而且交互的結果將會直接影響他們後續的運動(例如減速讓行、繞行避障、加速避障等)。測試

基於各種帶交互數據集,一系列的算法被相繼提出,而後對障礙物進行交互預測,這些主流模型的工做重心都是針對複雜場景下行人之間的交互進行建模。經常使用的方法包括基於LSTM的交互算法(SR LSTM[1]、Social GAN[2]、SoPhie[3]、Peeking into[4]、StarNet[5]等),基於Graph/Attention的交互算法(GRIP[6]、Social STGCNN[7]、STGAT[8]、VectorNet[9]等),以及基於語義地圖/原始數據的預測算法等。編碼

咱們本次的參賽方法就是由自研算法[10](如圖2所示)改進而來,該方法的設計思路是根據場景中全部障礙物的歷史軌跡、跟蹤信息以及場景信息,創建並維護一個全局的世界模型來挖掘障礙物之間、障礙物與環境之間的交互特性。而後,再經過查詢世界模型來得到每一個位置鄰域內的交互特徵,進而來指導對障礙物的預測。spa

圖2 基於世界模型的預測算法

在實際操做過程當中,因爲數據集中缺少場景信息,咱們對模型作了適當的調整。在世界模型中(對應上圖的Interaction Net),咱們僅使用了現有數據集,以及模型可以提供的位置信息和跟蹤信息LSTM隱狀態信息。最終獲得的模型結構設計以下圖3所示:設計

圖3 競賽使用的基於世界模型的預測算法

整個模型基於Seq2Seq結構,主要包含歷史軌跡編碼模塊(Encoder)、世界模型(Interaction Module)和解碼預測模塊(Decoder)三個部分。其中,編碼器的功能在於對行人歷史軌跡進行編碼,主要提取行人在動態環境中的運動模式;解碼器則是利用編碼器獲得的行人運動模式特徵,來預測他們將來的運動軌跡分佈。須要強調一下,在整個編碼與解碼的過程當中,都須要對世界模型進行實時更新(Update)與查詢(Query)兩種操做。更新操做主要根據時序的推動,將行人的運動信息實時編入世界模型中;查詢操做則是根據全局的世界地圖以及行人的自身位置,來獲取行人當前鄰域內的環境特徵。code

圖4 編碼階段

在圖4中,展現了咱們模型在歷史軌跡編碼階段的計算流程。編碼階段共有9個時刻,對應9個歷史觀測時間點,每一個時刻都執行相同的操做。以t時刻爲例。

首先,將t時刻的全部行人座標數據,包含:

位置集合

速度集合

全部行人跟蹤信息-上時刻編碼獲得的LSTM隱狀態

將以上信息輸入到世界模型中更新地圖信息,即Update操做。整個Update操做通過MLP、MaxPooling以及GRU等模塊得到一個全局的時空地圖特徵R;而後,每一個LSTM(對應一個行人),使用其當前觀測時刻的座標信息:

解碼預測階段的流程與歷史軌跡編碼階段基本一致,但存在兩個細微的不一樣點:

  • 區別1:編碼階段每一個行人對應的LSTM隱狀態的初始化爲0;而解碼階段,LSTM由編碼階段的LSTM隱狀態和噪聲共同初始化。
  • 區別2:編碼階段行人對應的LSTM和世界模型使用的是行人歷史觀測座標;而解碼階段使用的是上時刻預測的行人座標。

圖5 解碼預測階段

4、數據預處理與後處理

爲了對數據有更好的理解,便於使用更適合的模型,咱們對訓練數據作了一些預處理操做。首先,數據集給出了各個行人的行爲標籤,這些標籤是根據規則獲得的,因爲咱們採用了交互預測的方法,但願模型能自動學習行人與周圍主體之間的位置關係、速度關係等,因此咱們就不直接使用標註中的「類型」信息;而後此次比賽的數據採集自馬路、校園等不一樣場景中行人的運動軌跡。場景之間的差別性很是大,訓練集和測試集數據分佈不太一致。

因而,咱們作了數據的可視化工做,將全部軌跡數據的起點放置於座標軸的原點處,根據歷史觀測軌跡(前9個時刻)終點的位置朝向,將全部軌跡分爲4類:沿左上方運動(top-left moving)、沿右上方運動(top-right moving)、沿左下方運動(bottom-left moving)和沿右下方運動(bottom-right moving)。分佈的結果如圖6所示,能夠發現,訓練集和測試集的數據分佈存在必定的差距。

圖6 訓練集與測試集歷史觀測軌跡中行人運動方向分佈

針對上述問題,咱們對訓練集作了2項預處理來提升訓練集與測試集分佈的一致性:

  • 平衡性採樣;
  • 場景數據正則化(缺失軌跡點插值,軌跡中心化以及隨機旋轉)。

此外,對於預測結果,咱們也作了相應的後處理操做進行軌跡修正,主要是軌跡點的裁剪以及基於非極大值抑制的軌跡選擇。圖7展現了兩個場景中行人的運動區域,能夠看到有明顯的邊界,對於超出邊界的軌跡,咱們作了相應的修正,從而保證軌跡的合理性。

圖7 訓練軌跡的可視化

最後在訓練技巧上,咱們也使用K-Fold Cross Validation和Grid Search方法來作自適應的參數調優。最終在測試集上取得FDE 1.24米的性能,而得到比賽第二名的方法的FDE爲1.30米。

5、總結

行人軌跡預測是當前一個很是熱門的研究領域,隨着愈來愈多的學者以及研究機構的參與,預測方法也在日益地進步與完善。美團無人配送團隊也期待能與業界一塊兒在該領域作出更多、更好的解決方案。比較幸運的是,此次競賽的場景與咱們美團無人配送的場景具有必定的類似性,因此咱們相信將來它可以直接爲業務賦能。目前,咱們已經將該研究工做在競賽中進行了測試,也驗證了算法的性能,同時爲該算法在業務中落地提供了一個很好的支撐。

6、參考文獻

  • [1] Zhang P, Ouyang W, Zhang P, et al. Sr-lstm: State refinement for lstm towards pedestrian trajectory prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 12085-12094.
  • [2] Gupta A, Johnson J, Fei-Fei L, et al. Social gan: Socially acceptable trajectories with generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2255-2264.
  • [3] Sadeghian A, Kosaraju V, Sadeghian A, et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1349-1358.
  • [4] Liang J, Jiang L, Niebles J C, et al. Peeking into the future: Predicting future person activities and locations in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5725-5734.
  • [5] Zhu Y, Qian D, Ren D, et al. StarNet: Pedestrian trajectory prediction using deep neural network in star topology[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. 2019: 8075-8080.
  • [6] Li X, Ying X, Chuah M C. GRIP: Graph-based interaction-aware trajectory prediction[C]//Proceedings of the IEEE Intelligent Transportation Systems Conference. IEEE, 2019: 3960-3966.
  • [7] Mohamed A, Qian K, Elhoseiny M, et al. Social-STGCNN: A Social spatio-temporal graph convolutional neural network for human trajectory prediction[J]. arXiv preprint arXiv:2002.11927, 2020.
  • [8] Huang Y, Bi H K, Li Z, et al. STGAT: Modeling spatial-temporal interactions for human trajectory prediction[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 6272-6281.
  • [9] Gao J, Sun C, Zhao H, et al. VectorNet: Encoding HD maps and agent dynamics from vectorized representation[J]. arXiv preprint arXiv:2005.04259, 2020.
  • [10] Zhu Y, Ren D, Fan M, et al. Robust trajectory forecasting for multiple intelligent agents in dynamic scene[J]. arXiv preprint arXiv:2005.13133, 2020.

7、做者簡介

  • 炎亮,美團無人車配送中心算法工程師。
  • 佳禾,浙江大學在讀研究生,美團無人車配送中心實習生。
  • 德恆,美團無人車配送中心算法工程師。
  • 冬淳,美團無人車配送中心算法工程師。

閱讀更多技術文章,請掃碼關注微信公衆號-美團技術團隊!

相關文章
相關標籤/搜索