MOTS:多目標跟蹤和分割論文翻譯

MOTS:多目標跟蹤和分割論文翻譯

摘要:

本文將目前流行的多目標跟蹤技術擴展到多目標跟蹤與分割技術(MOTS)。爲了實現這個目標,咱們使用半自動化的標註爲兩個現有的跟蹤數據集建立了密集的像素級標註。咱們的新標註包含了10870個視頻幀中977個不一樣對象(汽車和行人)的65,213個像素掩膜。爲了進行評估,咱們將現有的多目標跟蹤指標擴展到這個任務。同時,咱們還提出了一種新的基線方法,該方法經過單個神經網絡解決檢測,跟蹤和分割問題。咱們經過在MOTS標註(MOTS annotations)上面訓練時實現性能的改進來展現咱們數據集的價值。咱們相信,咱們的數據集,指標和基線將成爲開發超出2D邊界框的多目標跟蹤方法的寶貴資源。咱們在下面的網站上提供了註釋,代碼和模型:[MOTS](https: //www.vision.rwth-aachen.de/page/mots)

1、介紹:

​ 近年來,計算機視覺領域在日益艱難的任務中取得了顯著進步。深度學習技術如今在對象檢測以及圖像和實例分割中具備很好(impressive)的表現。可是,跟蹤仍然具備挑戰性,尤爲是涉及多個對象時。 特別是最近的跟蹤評估結果代表邊界級跟蹤性能已經達到飽和,只有在移動到像素級別時才能進一步改進。所以,咱們建議將全部的三個任務---視爲須要一塊兒考慮的相互關聯的問題。算法

​ 用於訓練和評估目標分割模型的數據集一般不提供關於視頻數據的標註,甚至不提供關於不一樣圖像中對象身份的信息。另外一方面,多目標跟蹤的經常使用數據集僅提供對象的邊界框註釋。這些可能太過於粗糙。例如:當目標被部分遮擋時,其邊界框包含來自其餘目標而不是自身的信息(參見圖1)。在這種狀況下,像素級的目標分割能夠獲得更加天然的場景描述,併爲後續的處理提供額外的信息。對於分割掩膜,有一個定義好的ground truth,而許多不一樣(non-tight)的框可能大體適合一個對象。相似地,與一般須要在評估時經過啓發式匹配過程解決的ground truth相比,帶有重疊邊界框的跟蹤會產生歧義。另外一方面,根據定義,基於分割的跟蹤結果是不重疊的,所以能夠直接與ground truth進行比較。api


圖一:分割vs邊界框。當對象相互通過時,該對象的邊界框的很大一部分可能屬於另外一個對象,而逐像素分割掩膜則精肯定位目標。上圖顯示來自KITTI MOTS數據集。

​ 所以,本文提出將多目標跟蹤任務擴展到實例分割跟蹤。咱們稱這個新任務爲「多目標跟蹤和分割(MOTS)」。就咱們所知,到目前爲止尚未這個任務的數據集。雖然文獻中有許多方法來用於邊界框跟蹤,但MOTS須要結合時間和掩碼提示才能成功。所以,咱們提出TrackR-CNN做爲解決MOTS任務的全部方面的基線方法。TrackR-CNN利用3D卷積擴展Mask R-CNN 以結合時間信息,並經過關聯頭隨時間連接對象身份。網絡

​ 綜上所述,本文作出以下貢獻:(1) 基於流行的KITTI和MOTChallenge數據集,咱們爲解決MOTS任務的訓練和評估方法提供了兩個具備時間一致性對象實例分割的新數據集。(2) 咱們提出了一種新的軟多目標跟蹤和分割準確度(sMOTSA)測量方法,能夠同時對新任務的各個方面進行評估。(3) 咱們提出了TrackR-CNN做爲一種解決檢測、跟蹤和分割問題的基線方法,並將其與現有的工做進行了比較。(4) 咱們證實了新數據集在像素級多對象跟蹤器的端到端訓練中的有用性。特別是,咱們的數據集代表了分割和跟蹤程序的聯合訓練變得可能,而且在例如分割或邊界框跟蹤方面產生改進,這在之前是可能的。架構


2、相關工做

多目標跟蹤數據集: 在多目標跟蹤(MOT)任務中,必須未來自已知類集的最初未知數量的目標做爲視頻中的邊界框來跟蹤。特別是目標能夠隨時進入和離開場景,而且必須通過長時間的遮擋和外觀變化才能恢復。許多MOT數據集專一於街景,例如KITTI跟蹤數據集,其中包含來自車載攝像頭的視頻;MOTChallenge數據集顯示了來自各類不一樣視角的行人。UA-DETRAC也有街景,但僅包含車輛標註。另外一個MOT數據集是PathTrack,它提供了不一樣場景中人體軌跡的標註。PoseTrack包含視頻中多人的關節位置標註。這些數據集都沒有爲帶註釋的對象提供分割掩碼,所以沒法充分詳細地描述圖1中所示的複雜交互。框架

視頻目標分割數據集:在視頻目標分割(VOS)任務中,在視頻的第一幀中提供一個或多個通用目標的實例分割,而且必須在全部後續幀中以像素精度進行分割。現有的VOS數據集僅包含不多的對象,這些對象也存在於大多數幀中。此外,此任務的常見評估指標(區域Jaccard索引和邊界F-measure)不會將跟蹤多個對象時可能出現的ID變換等錯誤狀況考慮在內。相比之下,MOTS專一於一組預先定義的類別,並考慮具備許多交互對象的擁擠場景。MOTS還增長了發現和跟蹤在場景中出現和消失的不一樣數量的新對象的難度。函數

​ VOS任務的數據集包括DAVIS 2016數據集,它專一於單對象VOS,以及DAVIS 2017 數據集,它擴展了多對象VOS的任務。 而且YouTube-VOS數據集一樣可用,而且比DAVIS大幾個數量級。 此外,Segtrackv2 數據集,FBMS 和YouTube對象數據集的帶註釋子集均可用於評估此任務。性能

視頻實例分割數據集。Cityscapes,BDD和ApolloScape爲汽車場景提供視頻數據。 然而,實例標註僅針對非相鄰幀的一小部分提供,或者在ApolloScape的狀況下,針對每一個幀提供,但不隨時間推移提供對象身份。 所以,它們不能用於像素級跟蹤方法的端到端訓練。學習

方法。雖然對MOT或VOS任務提出的方法的全面回顧超出了本文的範圍,但咱們將回顧已經解決MOTS任務(子集)或與在其餘方面與TrackR-CNN相關的一些工做。測試

​ Seguin等人使用超像素級別的聚類從給定的邊界框軌跡導出實例分割,但它們不解決檢測或跟蹤問題。米蘭等人考慮利用超像素信息和給定對象檢測在CRF中聯合跟蹤和分割。與這兩種方法相反,咱們提出的基線在像素而非超像素級別上運行。 CAMOT 使用立體信息對KITTI數據集上的通用對象進行基於掩模的跟蹤,這限制了其對遠距離對象的準確性。CDTS 執行無監督的VOS,即不使用第一幀信息。它僅考慮具備少許對象外觀和消失的短視頻剪輯。然而,在MOTS中,許多物體常常進入或離開擁擠的場景。雖然上述方法可以使用分割掩模生成跟蹤輸出,但因爲不存在具備MOTS標註的數據集,所以沒法全面評估其性能。優化

​ Lu等人經過聚合每幀的位置和外觀特徵並使用LSTM跨時間組合來實現跟蹤。 Sadeghian等人還使用LSTM的組合將經過裁剪檢測得到的外觀特徵與速度和交互信息組合。 在這兩種狀況下,組合的特徵都輸入到傳統的匈牙利匹配程序中。 對於咱們的基線模型,咱們直接使用時間信息直接豐富檢測,並與檢測器一塊兒學習關聯特徵,而不只僅是給定檢測進行「後處理」。

半自動註釋。存在許多用於半自動實例分割的方法,例如, 從塗鴉或點擊生成分割掩模。 這些方法須要用戶輸入每一個要分割的對象,而咱們的註釋過程能夠徹底自動地分割許多對象,讓註釋器專一於改善不一樣狀況的結果。 雖然這有點相似於主動學習設置,但咱們將使用人工註釋器來決定註釋哪些對象,以保證全部註釋都達到長期基準數據集所需的質量。

​ 其餘半自動註釋技術包括Polygon-RNN,它自動預測多邊形形式的分割,頂點能夠由註釋器校訂。Fluid Annotation容許註釋器操做Mask RCNN預測的片斷,以便註釋完整的圖像。雖然加快了在隔離幀中對象的分割掩碼的建立,但這些方法並不在跟蹤級別上操做,也不使用現有的邊界框註釋,也不利用在其餘視頻幀中爲相同對象註釋的分割掩碼。


3、數據集

​ 爲視頻中每一個對象的每一個幀註釋像素掩模是一項很是耗時的任務。 所以,這種數據的可用性很是有限。 咱們不知道MOTS任務的任何現有數據集。 可是,有一些帶有MOT標註的數據集,即在邊界框級別標註的軌跡。 對於MOTS任務,這些數據集缺乏分割掩模。 所以,咱們的註釋過程爲兩個MOT數據集中的邊界框添加了分割掩模。 總共,咱們註釋了65,213個分割掩模。 這種規模使咱們的數據集在訓練和評估基於學習的技術方面是可行的。

半自動標註程序。爲了使標註工做易於管理,咱們提出了一種半自動方法,經過分割掩模擴展邊界框級別標註。 咱們使用卷積網絡從邊界框自動生成分割掩膜,而後使用手動多邊形標註進行校訂步驟。 每條軌跡,咱們使用手動標註做爲附加訓練數據來調整初始網絡,相似於[6]。 咱們迭代生成和校訂掩模的過程,直到達到全部註釋掩模的像素級精度。

​ 爲了將邊界框轉換爲分割掩模,咱們使用基於DeepLabv3+的徹底卷積改進網絡,該網絡將邊界框指定的輸入圖像做爲輸入,並添加了一個小的上下文區域,以及附加輸入通道,將邊界框編碼爲掩模。 在此基礎上,細分網絡預測給定框的分割掩碼。 改進的網絡在COCO 和Mapillary 上進行了預訓練,而後針對目標數據集進行了手動建立的分割掩模的訓練。

​ 在開始時,咱們爲所考慮的數據集中的每一個對象註釋(做爲多邊形)兩個分割掩膜。網絡首先在全部手動建立的掩碼上進行訓練,而後針對每一個對象分別進行微調。而後使用這些網絡的微調變量來爲數據集中各個對象的全部邊界框生成分割掩膜。這樣,網絡就適應了每一個對象的外觀。對於每一個對象使用兩個手工標註的分割掩碼進行微調,改進的網絡已經爲其餘幀中對象的外觀生成了相對良好的掩膜,但一般仍然存在小錯誤。所以,咱們最終會糾正一些有缺陷的生成掩膜,並在迭代過程當中從新運行訓練過程。咱們的標註器還糾正了原始MOT數據集中的不精確或錯誤的邊框標註。

KITTI MOTS。咱們在KITTI跟蹤數據集的邊界框級別註釋上執行了上述標註過程。 標註的樣本如圖2所示。爲了便於訓練和評估,咱們將KITTI跟蹤數據集2的21個訓練序列分別劃分爲訓練和驗證集3。 咱們的分配平衡了每一個類別的出現次數—汽車和行人—在訓練和驗證集中大體相等。 統計數字見表1。


圖 2:咱們標註的樣例圖片。KITTIMOTS(上)和MOTSChallenge(下)

表 1:引入的KITTI MOTS和MOTSChallenge數據集的統計數據。咱們考慮行人的數據集和汽車的KITTI MOTS。

​ 須要相對較多的手動標註代表現有的單圖像實例分割技術在此任務上仍然表現不佳。 這是咱們提出的MOTS數據集的主要動機,其容許將時間推理結合到實例分割模型中。

MOTSChallenge。咱們進一步標註了MOTChallenge 2017 訓練數據集4的7個序列中的4個,並得到了MOTSChallenge數據集。 MOTSChallenge專一於擁擠場景中的行人,而且因爲許多遮擋狀況而很是具備挑戰性,由於像素方面的描述尤爲有益。 標註的樣本如圖2所示,統計數據在表1中給出。


4、評價準則

​ 做爲評估措施,咱們將完善的CLEAR MOT指標用於多目標跟蹤以適應咱們的任務。 對於MOTS任務,須要在評估度量中容納每一個對象的分割掩模。 受Panoptic Segmentation任務的啓發,咱們要求對象的ground truth掩模和MOTS方法產生的掩模都不重疊,即每一個像素最多可分配給一個對象。 咱們如今介紹咱們對MOTS的評估措施。

​ 形式上,具備\(T\)個時間幀,高度\(h\)和寬度\(w\)的視頻的ground truth由一組\(N\)個非空的ground truth像素掩模 [公式] 組成,其中 [公式] ,每一個屬於相應的時間幀 [公式] 並被賦予ground truth 跟蹤id [公式] 。MOTS方法的輸出是一組\(K\)非空假設掩模 [公式] ,其中 [公式] ,每一個都被賦予一個假設的軌跡id [公式] 和一個時間幀 [公式]

創建對應關係。CLEAR MOT指標的一個重要步驟是創建ground truth對象和跟蹤器假設之間的對應關係。 在基於邊界框的設置中,創建對應關係是非平凡的而且經過二分匹配來執行,由於ground truth框能夠重疊而且多個假設框能夠很好地適應給定的ground truth框。 在MOTS的狀況下,因爲咱們要求每一個像素在ground truth和假設中都是惟一的,因此創建對應大大簡化了。 所以,對於給定的ground truth掩模,至多一個預測掩模能夠具備大於0.5的交叉聯合(IoU)。 所以,從假設掩模到ground truth掩模的映射 [公式] 能夠簡單地使用基於掩模的IoU定義爲

img

​ True positives的集合 [公式] 由映射到ground truth掩模的假設掩模組成。 相似地,false positives是未映射到ground truth掩模的假設掩模,即 [公式] 。 最後,false negatives的集合 [公式] 包含未被任何假設掩模覆蓋的ground truth掩模。

​ 在下文中,讓 [公式] 表示最近跟蹤的ground truth掩模的前一個(predecessor),或者若是沒有跟蹤的前一個存在則∅。 因此 [公式] 是具備相同 \(id(id_q-id_p)\) 的掩模q和使得 [公式] 的最大 \(t_q < t_p\) 。而後將id轉換的集合IDS定義爲 一系列ground truth掩模,其前一個被跟蹤不一樣的身份。形式上,

img

基於掩模的評估措施。另外,咱們 經過

img

定義了true positives數量的soft [公式]

鑑於以前的定義,咱們定義了原始CLEAR MOT指標的基於掩模的變體。 咱們提出多對象跟蹤和分割準確度(MOTSA)做爲基於框的MOTA度量的基於掩模IoU的版本,即

img

而且基於掩模的多目標跟蹤和分割精度(MOTSP)爲

img

最後,咱們介紹了soft多目標跟蹤和分割精度(sMOTSA)

img

它累積了 true positives 的soft number [公式] ,而不是計算有多少掩模達到超過0.5的IoU。所以,sMOTSA能夠衡量分割以及檢測和跟蹤質量。


5、方法

​ 爲了解決檢測,跟蹤和分割,即MOTS任務,與神經網絡聯合,咱們創建在流行的Mask R-CNN 架構上,該架構經過掩模head擴展了Faster R-CNN檢測器。 咱們提出TrackR-CNN(參見圖3),其又經過一個關聯頭(association head)和兩個3D卷積層來擴展Mask R-CNN,以便可以隨時間關聯檢測並處理時間動態。 TrackR-CNN提供基於掩模的檢測以及關聯特性。 二者都輸入到跟蹤算法,該算法決定選擇哪些檢測以及如何隨時間連接它們。


圖 三: TrackR-CNN概述。咱們經過3D卷積擴展Mask R-CNN以結合時間上下文和經過爲每次檢測產生關聯向量的關聯頭。關聯向量之間的歐幾里德距離用於將檢測隨時間關聯到軌跡中。與Mask R-CNN的差別以黃色突出顯示。

整合時間上下文。 爲了利用輸入視頻的臨時上下文,咱們將3D卷積(其中第三個維度是時間)整合到以ResNet-101爲骨幹網的Mask R-CNN中。 3D卷積應用於主幹特徵,以便加強主幹特徵得時序性。 而後,區域提議網絡(RPN)將使用這些加強的特徵。 做爲替代方案,咱們還考慮卷積LSTM 層。 卷積LSTM經過使用卷積而不是矩陣乘積計算其激活來保留輸入的空間結構。

Association Head(關聯頭)。爲了將檢測隨時間關聯的數據,咱們經過關聯頭擴展Mask R-CNN,該關聯頭是一個全鏈接層,其將區域提議做爲輸入而且預測每一個提議的關聯向量。 關聯頭的靈感來自用於人體從新識別的嵌入向量。 每一個關聯向量表示汽車或人的身份。它們的訓練方式是屬於同一實例的向量彼此接近,屬於不一樣實例的向量彼此相距遙遠。 咱們將兩個關聯向量v和w之間的距離 \(d(v, w)\) 定義爲它們的歐幾里德距離,即

img

​ 咱們使用Hermans等人提出的batch hard triplet loss 來訓練關聯頭適用於視頻序列。 這種損失對每次檢測都會產生硬陽性(hard positives )和硬陰性(hard negatives)。 正式地,讓\(D\)表示視頻的檢測集。 每一個檢測 \(d ∈D\) 由掩模 \(mask_d\) 和關聯矢量 \(a_d\) 組成,其來自時間幀 \(t_d\) ,而且被分配由其與ground truth對象的重疊肯定的ground truth軌跡id \(id_d\) 。 對於\(T\)時間步長的視頻序列,具備邊際\(α\)的batch-hard formulation中的關聯損失由下式給出

img

Mask傳播。 基於掩模的\(IoU\)與光流扭曲(warping)一塊兒是一種強有力的提示,用於隨時間關聯像素掩模。 所以,咱們還嘗試使用掩模扭曲做爲關聯向量類似性的替代提示。 對於在時間\(t-1\)處的檢測\(d∈D\)具備掩模\(mask_d\)而且在時間\(t\)處具備掩模 \(mask_e\) 的檢測\(e∈D\),咱們定義掩模傳播得分爲

img

其中\(W(m)\)表示經過幀\(t-1\)\(t\)之間的光流向前的扭曲掩模\(m\)

跟蹤。 爲了產生最終結果,咱們仍然須要決定報告哪些檢測以及如何將它們隨時間連接到軌跡中。 爲此,咱們將現有的基於關聯向量類似度的軌跡檢測擴展到該軌跡的最新檢測。

​ 更確切地說,對於每一個類和每一個幀\(t\),咱們將檢測置信度大於閾值\(γ\)的當前幀的檢測與以前幀中使用關聯向量距離公式7選擇的檢測聯繫在一塊兒。咱們只選擇最近的檢測,直到過去的\(β\)幀閾值。 使用匈牙利算法進行匹配,同時僅容許距離小於閾值\(δ\)的成對檢測。 最後,全部未分配的高置信度檢測都會啓動新的軌跡。

​ 生成的軌道能夠包含重疊的掩碼,咱們不容許執行MOTS任務(參見第4節)。 在這種狀況下,屬於具備較高置信度的檢測的像素(由咱們的網絡的分類頭部給出)優先於具備較低置信度的檢測。


6、實驗

實驗設置。對於Mask R-CNN,咱們使用一個ResNet-101主幹,並在COCO和Mapillary上進行預訓練。而後,咱們經過添加關聯頭,將兩個深度的3D卷積層與3×3×3濾波核(二維空間的,三維時間)、ReLU激活層以及1024個背骨與區域建議網絡之間的特徵映射進行集成,構建TrackR-CNN。將3D卷積初始化爲一個標識函數,而後應用ReLU函數,在使用卷積LSTM時,在訓練的初始步驟中,隨機初始化權值,並在後續層的預訓練權值的預服務激活中加入一個跳躍鏈接。而後,TrackR-CNN對目標數據集進行訓練,即KITTI MOTS 或MOTSChallenge,使用Adam優化器,以\(5*10^{-7}\)的學習速度進行了40個循環的測試。在訓練期間,使用由單個視頻的8個相鄰幀組成的小批量,其中8是使用Titan X (Pascal)graph-ics卡可以裝入內存的最大幀數。在批處理邊界處,3D卷積層的輸入在時間上是零填充的。使用卷積LSTM時,梯度在訓練過程當中經過所有8幀反向傳播,在測試時在整個序列上傳播遞歸狀態。關聯頭產生的向量有128個維度,公式8中定義的關聯損失是在一批檢測中計算出來的。咱們選擇的優點\(α= 0.2\), 這被證實是有用的。對於掩模傳播實驗,咱們使用PWC-Net來計算全部相鄰幀對之間的光流。咱們的整個跟蹤器在測試時達到了大約每秒2幀的速度。當使用卷積LSTM時,它是在線運行的,當使用3D卷積時,因爲兩幀的關係,它是在3D卷積以前運行的。

​ 咱們每一個實驗的跟蹤系統調優的閾值\((α, β, γ)\)每個類分別在目標訓練集與隨機搜索進行1000次迭代。


表 2: KITTI MOTS上的結果。+ MG表示使用KITTI MOTS 微調 Mask R-CNN生成掩模。 BeyondPixels是一種先進的汽車MOT方法,使用與其餘方法不一樣的檢測器。

主要結果。 表2顯示了咱們在KITTIMOTS驗證集上的結果。咱們取得了有競爭力的結果,擊敗了幾個基準方法。Mask R-CNN + maskprop表示一個簡單的基線,咱們在KITTI MOTS訓練集的框架上對COCO和Mapillary預訓練Mask R-CNN進行了微調。而後咱們在驗證集上對其進行評估,並使用掩模傳播評分(參見第5節)將基於掩模的檢測隨時間聯繫起來。與此基線相比,TrackR-CNN得到了更高的sMOTSA 和 MOTSA評分,這意味着3D卷積分層和關聯頭有助於識別視頻中的對象。MOTSP得分也是同樣的。

​ TrackR-CNN(box orig)表示咱們的模型在KITTI的原始邊界框註釋上通過無掩模頭部訓練的一個版本。而後咱們根據KITTI在咱們的訓練片斷上的原始跟蹤註釋來調整MOTA的分數。在咱們的MOTS設置中,咱們經過添加分割掩膜(用+MG表示)和KITTI微調掩膜R-CNN的掩膜頭部做爲後處理步驟來評估這一基線。這種設置的sMOTSA和MOTSA得分比咱們的方法和以前的基線更差,特別是考慮到行人時,此外,咱們還觀察到,非緊密邊界框並非跟蹤的理想線索,而僅僅在邊界框謂詞上使用實例劃分方法不足以解決MOTS任務。咱們在圖4中顯示了這條基線的定性結果。基於邊界框的模型常常混淆類似的閉塞對象,致使掩膜和身份開關丟失。相反,咱們的模型假設了一致的掩模(marks)。


圖 4:KITTI MOTS上的定性結果。 (a) +(c): 咱們的TrackR-CNN模型評估了KITTI MOTS的驗證序列。(b)+(d): TrackR-CNN(box orig)+ MG在相同序列上的評估。在咱們的數據上使用掩模進行訓練能夠避免相似的近距離物體之間的混淆。

​ 爲了證實像上面那樣添加分割掩膜不會帶來(不)公平的優點,咱們還使用了MASK R-CNN掩膜頭來替換咱們的方法生成的掩膜(TrackR-CNN (our) + MG)。結果大體類似,因此沒有出現主要的(劣)優點。結合咱們的基線實驗,咱們發現對於視頻的時間一致性的實例分割數據的訓練比沒有時間信息的實例分割數據的訓練和僅僅對邊界框跟蹤數據的訓練都有優點。這兩方面的聯合訓練在之前是不可能的,這強調了咱們提出的MOTS數據集的有用性。

​ CAMOT是一個基於掩碼的跟蹤器,它能夠跟蹤來自預約義類的對象和使用來自KITTI中立體設置的3D信息的通用對象。在原始版本中,CAMOT未來自SharpMask的通用對象建議做爲輸入。爲了具備更好的可比性,咱們使用來自TrackR-CNN的檢測(經過運行它做爲一個正常的探測器,沒有關聯)做爲輸入。請注意,CAMOT只能跟蹤立體的深度可用的區域,這限制了它的回調。結果代表,當使用相同的輸入檢測集時,咱們提出的跟蹤方法比傳統的跟蹤方法CAMOT有更好的性能。

​ 因爲基於掩碼的跟蹤器的源代碼很少,咱們也考慮了基於邊界框的跟蹤方法CIWT和BeyondPixels,並再次使用KITTI微調掩碼R-CNN掩碼頭將其結果轉換爲分割掩碼。注意,這些方法通過了調優,在最初的基於邊界框的任務上表現良好。

​ CIWT將基於圖像的信息與來自stereo的三維信息相結合,在圖像和世界空間中進行聯合跟蹤。再次,從咱們的TrackR-CNN的檢測用於可比性。咱們所提出的追蹤系統在產生自適應的掩膜時,可同時處理追蹤與掩膜的產生,其效能優於連續小波變換。

​ BeyondPixels是KITTI原始跟蹤數據集中最強大的汽車跟蹤方法之一。它結合了外觀信息和3D線索。咱們沒法運行他們的方法與咱們的檢測,由於他們的代碼提取外觀特徵是不可用的。相反,咱們使用了從RRC得到的原始檢測,RRC是一種很是強大的探測器。RRC特別在KITTI上實現了精確的定位,而更爲傳統的MASK R-CNN檢測器設計用於通常的目標檢測。最終獲得的sMOTSA和MOTSA的分數比咱們的方法要高,但仍然代表在MOTS上使用Mask R-CNN分割邊界框時,最早進的邊界框跟蹤方法是有限制的。

MOTS用Ground Truth邊界框。爲了便於比較,咱們基於邊界框ground truth獲得了分割結果,並在新的標註中對其進行了評估。在這裏,咱們考慮了ground truth的兩個變體:來自KITTI (orig)的原始邊界框,它們是模態,即若是隻有一我的的上半身是可見的,邊界框將仍然延伸到地面,另外一種是緊密的邊界框(tight)從咱們的分割掩膜。一樣,咱們使用KITTI MOTS微調的MASK R-CNN生成掩膜。咱們的研究結果代表,即便使用完美的軌跡假設,生成精確的掩模仍然具備挑戰性,尤爲是對行人而言。在使用模態框時更是如此,它一般包含不顯示對象的較大區域。這進一步證明了咱們的觀點,MOT任務能夠從像素級評估中獲益。進一步的基準,咱們用矩形或橢圓填充ground truth框能夠在補充材料中找到。

時間成分。在表3中,咱們比較了TrackR-CNN時間份量的不一樣變量。\(1×Conv3D\)\(2×Conv3D\)表示在基幹和區域建議網絡之間使用一個或疊加兩個深度可分的3D卷積層,每層有1024個維度。相似地,\(1×Conv\)\(2×ConvLSTM\)表示在同一階段有一個或兩個堆疊的卷積LSTM層,每一個層有128個特徵通道。在卷積LSTM中,因爲門的存在,每一個特徵通道的參數數更高。在最初的實驗中,使用更多的特徵通道彷佛沒有什麼幫助。最後,不添加任何額外的層做爲臨時組件\((None)\)。與基線相比,增長兩個3D卷積層能夠顯著改善行人的sMOTSA和MOTSA分數,而對汽車的評分則能夠進行類比。使人驚訝的是,使用卷積LSTM並無比基線產生任何顯著的效果。


表 3:TrackR-CNN的不一樣時間成分在KITTI MOTS上的結果比較。(a)+(c)咱們的TrackR-CNN模型對KITTI MOTS的驗證序列進行了評估。(b)+(d) TrackR-CNN (box orig) + MG對同一序列進行評價。在咱們的數據上使用蒙板進行訓練,能夠避免附近類似物體之間的混淆。

關聯機制。在表4中,咱們比較了不一樣的檢測關聯機制。每一行都遵循第5節中介紹的建議的跟蹤系統,可是匈牙利匹配步驟使用了不一樣的分數。當使用關聯頭,關聯頭向量可能對過去檢測到\(β\)幀進行匹配。對於其他的關聯機制,只有相鄰幀之間的匹配纔是合理的。


表 4:TrackR-CNN的不一樣關聯機制在KITTI MOTS上的結果比較。

​ 對於MASK IoU,咱們只使用來自等式9的掩模傳播分數,這會下降sMOTSA和MOTSA的分數。這強調了咱們的關聯頭的有用性,它可使用單個神經網絡提供的嵌入來超越基於光流的提示。在這裏,咱們也嘗試了沒有關聯頭損失的訓練\((MASK IoU(train w/oassoc.))\),這更下降了MOTSA的分數。所以,關聯損耗對檢測器自己也有積極的影響。使人驚訝的是,使用邊界框IoU(其中邊界框被框內的光流值的中間值扭曲,\(Bbox\ IoU\))執行的效果幾乎與mask IoU相同。最後,僅使用邊界框中心(Bbox Center)的距離進行關聯,即作最近鄰搜索,會顯著下降性能。

MOTS挑戰。表5顯示了咱們在MOTSChallenge數據集上的結果。由於MOTSChallenge只有4個視頻序列,因此咱們將咱們的方法(TrackR-CNN(ours))訓練成一種忽略不計的方式(用一個訓練過並調整了其餘3個序列的模型來評估每一個序列)。爲了進行比較,咱們使用四種在MOT17基準測試中表現良好的方法的預先計算結果,並使用在MOTSChallenge上通過調優的Mask R-CNN生成掩膜(以一種遺漏的方式)來評估咱們的數據。咱們注意到,全部四組結果都使用了SDP生成的最強公共檢測集,而TrackR-CNN生成了本身的檢測。一樣不清楚的是,這些方法有多少被訓練得在MOTChallenge訓練集上表現良好。儘管存在這些可能性,但TrackR-CNN的表現優於其餘全部方法。最後一行代表,即便隨着時間的推移,包括跟蹤信息在內的嚴格的ground truth邊界框,準確分割全部行人仍然是困難的


表 5:MOTSChallenge上的結果。+ MG表示使用域fine-tuned的Mask R-CNN生成掩模。

7、結論

​ 到目前爲止,尚未用於評估多對象跟蹤和分割的任務的基準或數據集,而且使用這種時間上一致的基於掩模的跟蹤信息直接訓練方法。 爲了緩解這個問題,咱們引入了兩個基於現有MOT數據集的新數據集,咱們使用半自動標註過程進行標註。 咱們基於經常使用的MOTA指標進一步介紹了MOTSA和sMOTSA指標,但適用於評估基於掩模跟蹤的全部方面。 咱們最終開發了一個旨在利用這些數據的基線模型。 咱們經過對數據的訓練代表,該方法可以賽過僅用邊界框軌跡和單個圖像實例分割掩模訓練的方法。 咱們的新數據集使這種聯合訓練成爲可能,這爲將來的研究提供了許多機會。

相關文章
相關標籤/搜索