挑戰目標跟蹤算法極限,SiamRPN系列算法解讀

商湯科技智能視頻團隊首次開源其目標跟蹤研究平臺 PySOT。PySOT 包含了商湯科技 SiamRPN 系列算法,以及剛被 CVPR2019 收錄爲 Oral 的 SiamRPN++。此篇文章將解讀目標跟蹤最強算法 SiamRPN 系列。git

背景github

因爲存在遮擋、光照變化、尺度變化等一些列問題,單目標跟蹤的實際落地應用一直都存在較大的挑戰。過去兩年中,商湯智能視頻團隊在孿生網絡上作了一系列工做,包括將檢測引入跟蹤後實現第一個高性能孿生網絡跟蹤算法的 SiamRPN(CVPR 18),更好地利用訓練數據加強判別能力的 DaSiamRPN(ECCV 18),以及最新的解決跟蹤沒法利用到深網絡問題的 SiamRPN++(CVPR 19)。其中 SiamRPN++ 在多個數據集上都完成了 10% 以上的超越,而且達到了 SOTA 水平,是當之無愧的目標跟蹤最強算法。算法

項目地址:https://github.com/STVIR/pysot網絡

以上動圖中,紅色框是 SiamRPN++ 的跟蹤效果,藍色框是 ECCV 2018 上的 UPDT 的結果,能夠看出 SiamRPN++ 的效果更佳,跟蹤效果更穩定,框也更準。從這個圖也能夠看出跟蹤的一些挑戰:光照急劇變化,形狀、大小變化等。性能

SiamRPN (CVPR18 Spotlight)學習

在 CVPR18 的論文中(SiamRPN),商湯智能視頻團隊發現孿生網絡沒法對跟蹤目標的形狀進行調節。以前的跟蹤算法更多的將跟蹤問題抽象成比對問題,可是跟蹤問題其實和檢測問題也很是相似,對目標的定位與對目標框的迴歸預測同樣重要。 研究人員分析了以往跟蹤算法的缺陷並對其進行改進:設計

  1. 大多數的跟蹤算法把跟蹤考慮成定位問題,但它和檢測問題也比較相似,對目標的定位和對目標邊界框的迴歸預測同樣重要。爲此,SiamRPN 將跟蹤問題抽象成單樣本檢測問題,即須要設計一個算法,使其可以經過第一幀的信息來初始化的一個局部檢測器。爲此,SiamRPN 結合了跟蹤中的孿生網絡和檢測中的區域推薦網絡:孿生網絡實現對跟蹤目標的適應,讓算法能夠利用被跟蹤目標的信息,完成檢測器的初始化;區域推薦網絡可讓算法能夠對目標位置進行更精準的預測。通過二者的結合,SiamRPN 能夠進行端到端的訓練。
  2. 以往的濾波類的方法,沒辦法經過數據驅動的形式提高跟蹤的性能。而 SiamRPN 能夠端到端訓練,因此更大規模的數據集 Youtube-BB 也被引入到了訓練中,經過數據驅動的形式提高最終的性能。

結合以上兩點創新,在基線算法 SiamFC 的基礎上,SiamRPN 實現了五個點以上的提高(OTB100,VOT15/16/17 數據集);同時還達到了更快的速度(160fps)、也更好地實現了精度與速度的平衡。orm

DaSiamRPN (ECCV18)視頻

SiamRPN 雖然取得了很是好的性能,但因爲訓練集問題,物體類別過少限制了跟蹤的性能;同時,在以前的訓練方式中,負樣本只有背景信息,必定程度上也限制了網絡的判別能力,網絡只具有區分前景與不含語義的背景的能力。基於這兩個問題,DaSiamRPN 設計了兩種數據加強方式:blog

  1. 孿生網絡的訓練只須要圖像對,而並不是完整的視頻,因此檢測圖片也能夠被擴展爲訓練數據。更準確的來講,經過對檢測數據集進行數據加強,生成可用於訓練的圖片對。所以在 DaSiamRPN 中,COCO 和 ImageNet Det 也被引入了訓練,極大地豐富了訓練集中的類別信息。同時,數據量增大的自己也帶來了性能上的提高。
  2. 在孿生網絡的訓練過程當中,經過構造有語意的負樣本對來加強跟蹤器的判別能力,即訓練過程當中再也不讓模板和搜索區域是相同目標;而是讓網絡學習判別能力,去尋找搜索區域中和模版更類似的物體,而並不是一個簡單的有語義的物體。

通過上述的改進,網絡的判別能力變得更強,檢測分數也變得更有辨別力,這樣就能夠根據檢測分數判斷目標是否消失。基於此,DaSiamRPN 能夠將短時跟蹤拓展到長時跟蹤,而且在 UAV20L 數據集上比以前最好的方法提升了 6 個點。在 ECCV18 的 VOT workshop 上面,DaSiamRPN 取得了實時比賽的冠軍,相比去年的冠軍有了 80% 的提高

SiamRPN++ (CVPR19 Oral)

目前,孿生網絡中的核心問題在於現有的孿生網絡目標跟蹤算法只能用比較淺的卷積網絡(如 AlexNet),沒法利用現代化網絡爲跟蹤算法提高精度,而直接引入深網絡甚至會使性能大幅衰減。

爲了解決深網絡這個 Siamese 跟蹤器的痛點,商湯智能視頻團隊基於以前 ECCV2018 的工做(DaSiamRPN),經過分析孿生神經網絡訓練過程,發現孿生網絡在使用現代化深度神經網絡存在位置偏見問題,而這一問題是因爲卷積的 padding 會破壞嚴格的平移不變性。然而深網絡並不能去掉 padding,爲了緩解這一問題,讓深網絡可以在跟蹤提高性能,SiamRPN++ 中提出在訓練過程當中加入位置均衡的採樣策略。經過修改採樣策略來緩解網絡在訓練過程當中的存在的位置偏見問題,讓深網絡可以發揮出應有的效果。

經過加入這一採樣策略,深層網絡終於可以在跟蹤任務中發揮做用,讓跟蹤的性能再也不受制於網絡的容量。同時,爲了更好地發揮深層網絡的性能,SiamRPN++ 中利用了多層融合。因爲淺層特徵具備更多的細節信息,而深層網絡具備更多的語義信息,將多層融合起來之後,能夠跟蹤器兼顧細節和深層語義信息,從而進一步提高性能。

除此以外,研究人員還提出了新的鏈接部件,深度可分離相關層(Depthwise Correlation,後續簡寫爲 DW)。相比於以前的升維相關層(UpChannel correlation,後續簡寫爲 UP),DW 能夠極大地簡化參數量,平衡兩支的參數量,同時讓訓練更加穩定,也能更好的收斂。

爲了驗證以上提出的內容,研究人員作了詳細的實驗。在比較經常使用的 VOT 和 OTB 數據集上,SiamRPN++ 取得了 SOTA 的結果。在 VOT18 的長時跟蹤,以及最近新出的一些大規模數據集上如 LaSOT,TrackingNet,SiamRPN++ 也都取得了 SOTA 的結果。

目前相關代碼現已上傳至商湯科技開源目標跟蹤研究平臺 PySOT。PySOT 實現了目前 SOTA 的多個單目標跟蹤算法,旨在提供高質量、高性能的視覺跟蹤研究代碼庫,並將其靈活應用於新算法的實現和評估中。歡迎你們使用與交流!

PySOT 開源項目

  • https://github.com/STVIR/pysot
  • SiamRPN
  • http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf
  • DaSiamRPN
  • http://openaccess.thecvf.com/content_ECCV_2018/papers/Zheng_Zhu_Distractor-aware_Siamese_Networks_ECCV_2018_paper.pdf
  • SiamRPN++
  • https://arxiv.org/abs/1812.11703

參考文獻

  1. Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan, "SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks" (Oral) in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019
  2. Zheng Zhu, Qiang Wang, Bo Li, Wei Wu, Junjie Yan, "Distractor-aware Siamese Networks for Visual Object Tracking" European Conference on Computer Vision (ECCV) 2018
  3. Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, Xiaolin Hu, "High Performance Visual Tracking with Siamese Region Proposal Network" (Spotlight) in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018
  4. Luca Bertinetto, Jack Valmadre, João F. Henriques, Andrea Vedaldi, Philip H. S. Torr "Fully-Convolutional Siamese Networks for Object Tracking" in ECCV Workshop 2016
  5. Goutam Bhat, Joakim Johnander, Martin Danelljan, Fahad Shahbaz Khan, Michael Felsberg."Unveiling the Power of Deep Tracking" European Conference on Computer Vision (ECCV) 2018
相關文章
相關標籤/搜索