商湯科技智能視頻團隊首次開源其目標跟蹤研究平臺 PySOT。PySOT 包含了商湯科技 SiamRPN 系列算法,以及剛被 CVPR2019 收錄爲 Oral 的 SiamRPN++。此篇文章將解讀目標跟蹤最強算法 SiamRPN 系列。git
背景github
因爲存在遮擋、光照變化、尺度變化等一些列問題,單目標跟蹤的實際落地應用一直都存在較大的挑戰。過去兩年中,商湯智能視頻團隊在孿生網絡上作了一系列工做,包括將檢測引入跟蹤後實現第一個高性能孿生網絡跟蹤算法的 SiamRPN(CVPR 18),更好地利用訓練數據加強判別能力的 DaSiamRPN(ECCV 18),以及最新的解決跟蹤沒法利用到深網絡問題的 SiamRPN++(CVPR 19)。其中 SiamRPN++ 在多個數據集上都完成了 10% 以上的超越,而且達到了 SOTA 水平,是當之無愧的目標跟蹤最強算法。算法
項目地址:https://github.com/STVIR/pysot網絡
以上動圖中,紅色框是 SiamRPN++ 的跟蹤效果,藍色框是 ECCV 2018 上的 UPDT 的結果,能夠看出 SiamRPN++ 的效果更佳,跟蹤效果更穩定,框也更準。從這個圖也能夠看出跟蹤的一些挑戰:光照急劇變化,形狀、大小變化等。性能
SiamRPN (CVPR18 Spotlight)學習
在 CVPR18 的論文中(SiamRPN),商湯智能視頻團隊發現孿生網絡沒法對跟蹤目標的形狀進行調節。以前的跟蹤算法更多的將跟蹤問題抽象成比對問題,可是跟蹤問題其實和檢測問題也很是相似,對目標的定位與對目標框的迴歸預測同樣重要。 研究人員分析了以往跟蹤算法的缺陷並對其進行改進:設計
結合以上兩點創新,在基線算法 SiamFC 的基礎上,SiamRPN 實現了五個點以上的提高(OTB100,VOT15/16/17 數據集);同時還達到了更快的速度(160fps)、也更好地實現了精度與速度的平衡。orm
DaSiamRPN (ECCV18)視頻
SiamRPN 雖然取得了很是好的性能,但因爲訓練集問題,物體類別過少限制了跟蹤的性能;同時,在以前的訓練方式中,負樣本只有背景信息,必定程度上也限制了網絡的判別能力,網絡只具有區分前景與不含語義的背景的能力。基於這兩個問題,DaSiamRPN 設計了兩種數據加強方式:blog
通過上述的改進,網絡的判別能力變得更強,檢測分數也變得更有辨別力,這樣就能夠根據檢測分數判斷目標是否消失。基於此,DaSiamRPN 能夠將短時跟蹤拓展到長時跟蹤,而且在 UAV20L 數據集上比以前最好的方法提升了 6 個點。在 ECCV18 的 VOT workshop 上面,DaSiamRPN 取得了實時比賽的冠軍,相比去年的冠軍有了 80% 的提高。
SiamRPN++ (CVPR19 Oral)
目前,孿生網絡中的核心問題在於現有的孿生網絡目標跟蹤算法只能用比較淺的卷積網絡(如 AlexNet),沒法利用現代化網絡爲跟蹤算法提高精度,而直接引入深網絡甚至會使性能大幅衰減。
爲了解決深網絡這個 Siamese 跟蹤器的痛點,商湯智能視頻團隊基於以前 ECCV2018 的工做(DaSiamRPN),經過分析孿生神經網絡訓練過程,發現孿生網絡在使用現代化深度神經網絡存在位置偏見問題,而這一問題是因爲卷積的 padding 會破壞嚴格的平移不變性。然而深網絡並不能去掉 padding,爲了緩解這一問題,讓深網絡可以在跟蹤提高性能,SiamRPN++ 中提出在訓練過程當中加入位置均衡的採樣策略。經過修改採樣策略來緩解網絡在訓練過程當中的存在的位置偏見問題,讓深網絡可以發揮出應有的效果。
經過加入這一採樣策略,深層網絡終於可以在跟蹤任務中發揮做用,讓跟蹤的性能再也不受制於網絡的容量。同時,爲了更好地發揮深層網絡的性能,SiamRPN++ 中利用了多層融合。因爲淺層特徵具備更多的細節信息,而深層網絡具備更多的語義信息,將多層融合起來之後,能夠跟蹤器兼顧細節和深層語義信息,從而進一步提高性能。
除此以外,研究人員還提出了新的鏈接部件,深度可分離相關層(Depthwise Correlation,後續簡寫爲 DW)。相比於以前的升維相關層(UpChannel correlation,後續簡寫爲 UP),DW 能夠極大地簡化參數量,平衡兩支的參數量,同時讓訓練更加穩定,也能更好的收斂。
爲了驗證以上提出的內容,研究人員作了詳細的實驗。在比較經常使用的 VOT 和 OTB 數據集上,SiamRPN++ 取得了 SOTA 的結果。在 VOT18 的長時跟蹤,以及最近新出的一些大規模數據集上如 LaSOT,TrackingNet,SiamRPN++ 也都取得了 SOTA 的結果。
目前相關代碼現已上傳至商湯科技開源目標跟蹤研究平臺 PySOT。PySOT 實現了目前 SOTA 的多個單目標跟蹤算法,旨在提供高質量、高性能的視覺跟蹤研究代碼庫,並將其靈活應用於新算法的實現和評估中。歡迎你們使用與交流!
PySOT 開源項目
參考文獻