Spatial-Temporal Relation Networks for Multi-Object Tracking

Spatial-Temporal Relation Networks for Multi-Object Tracking算法

2019-05-21 11:07:49網絡

Paperhttps://arxiv.org/pdf/1904.11489.pdf 
app

 

1. Background and Motivation框架

多目標跟蹤的目標是:定位物體而且在視頻中仍然能夠保持他們的身份。該任務已經應用於多種場景,如視頻監控,體育遊戲分析,自動駕駛等等。大部分的方法都依賴於 「tracking-by-detection」 的流程,即:首先在每一幀進行物體檢測,而後在後續的視頻中將其鏈接起來。這種分解的流程,極大地下降了整體的複雜度,而後將主要問題變成了更加純粹的問題:object association。這種思路主要受益於物體檢測領域的快速發展,而且在多個 MOT 的 benchmark 上取得了頂尖的檢測效果。dom

 

整體來講,這種經過聯繫物體(Object Association)的方法很大程度上依賴於魯棒的類似性得分。這種類似性得分在大部分現有的方法中,都僅依賴於摳出來物體的表觀特徵(appearance feature)。這種類似性度量方法的結果是很是受限的:1). 所要跟蹤的物體,在跟蹤場景中,一般僅僅是一類,即:「Human」,一般很是難以區分;2). 跨越不一樣幀的物體,一般也受到遮擋,圖像質量,姿態變化的影響,從而進一步增長了其魯棒得分的難度。ide

 

探索不一樣信息的前人工做也都在嘗試如何有效的構建類似性得分。CNN 被很好的研究而且用於編碼外觀信息,手工設計的位置信息也被結合到 appearance cue。Bound Box 之間的拓撲結構對於判斷是否給定的 BBox 對錶示同一個物體,特別對於遮擋的場景來講。如圖 1 所示,第一幀 和 第 t-k 幀中的橘色 BBox 和 第 t 幀的藍色 BBox 表示同一個行人。雖然 第 t 幀的行人被另外一個行人遮擋了,而且其外觀仍然對於前面的視頻幀來講,有較大的不一樣,可是其拓撲結構仍然是一致的,使得觀測到的行人身份仍然是可識別的。此外,跨幀的信息融合,也被證實對於衡量類似度來講是有用的。函數

可是這些信息都是異構的表達,如何將這些信息進行整合,融合到一個框架中,現有的工做要麼依賴於 cue-specific mechanism,要麼須要頂尖的學習方法。本文的工做則是受到 natural language 和 CV 中關係網絡成功應用的啓發。在關係網絡中,每個元素經過一個 content-aware aggregation weight 從其餘元素來進行特徵聚合,能夠自動根據任務的目標實現自動學習,而不須要顯示的監督信息。因爲不須要過多關於數據格式的假設,關係網絡被普遍的應用於建模 distant, non-grid 或者 differently distributed data 之間的關係,例如 word-word, pixel-pixel and object-object 之間的關係。這些數據格式的很難用常規的卷積和循環網絡建模。性能

 

該文章中,咱們提出了一個聯合的框架,經過將多種線索以一種端到端的方式進行類似性度量,從空間領域到時空領域拓展 object-object relation。有了這種關係網絡的拓展,咱們能夠很好的編碼 objects 和 tracklets 的外觀和拓撲結構。同時也能夠適應基於 location 的位置信息。學習

 

時空關係網絡受限被應用到每一幀來增強空間上物體的外觀表達。而後,在其參考的 tracklet 上的加強特徵隨着時間,經過採用咱們的關係網絡進行聚合。最終,在 tracklet 上聚合的特徵,加強的目標特徵被組合起來,以豐富 tracklet-object pair 的表達,並從而產生一個類似性得分。做者發現,tracklet-object pair 合適的特徵表達也是類似性度量的關鍵所在。本文的算法被稱爲:spatial-temporal relation networks (STRN), 能夠進行端到端的訓練,而且在多個 MOT benchmark 上取得了頂尖的效果。優化

2. The Proposed Method

MOT 問題的定義:本文的算法示意圖如圖 2 所示。輸入是 video,而後進行物體檢測,獲得行人的檢測結果,即:BBox。而後在每一幀中,都進行前面一些幀獲得的 tracklets 和 當前幀的檢測結果 proposal 的匹配。那麼,很天然的一個問題就是:如何很好的衡量這些 tracklets 和 proposals 之間的類似度度量問題?若是能夠很好的度量其類似度,就能夠很好的將其串起來,造成每個目標物體的軌跡,從而完成多目標跟蹤。將第 t-1 幀以前的第 i 個以前的 tracklet 記爲:$T^{t-1}_i = \{b_i^1, b_i^2, ... , b_i^{t-1}\}$,當前幀 t 中檢測到的物體記爲:$D_t = \{b_j^t\}_{j=1}^{N_t}$。每個 pair $(T^{t-1}_i, b_j^t)$ 被賦予一個類似性得分 $s_{ij}^t$。

 

 

本文算法總覽:這篇文章就是經過時空關係網絡,將上述提到的 appearance,location,topology cues,and aggregating informaton over time 都用於計算類似性得分。圖 3 展現了類似性計算的整個過程。首先,首先用基礎的深度網絡,ResNet-50 來提取 appearance feature;而後,跨越時空的表觀特徵經過 Spatial-temproal relation module (STRM) 來進行推理,獲得了空間加強的表達和時間加強的表達。雖然這兩個加強後的特徵,咱們進一步的獲得兩種特徵,經過將其進行組合,而後分別計算其他弦類似度。最終,咱們組合 the relation feature 和 unary location feature, motion feature 做爲tracklet-object pair 的表達。對應的,該類似性得分是由兩層網絡和sigmoid 函數獲得的。

 

緊接着,做者對該流程中的主要模塊進行詳細的介紹,主要包括:Spatial-temporal relation module (STRM), the design of the feature presentation for a tacklet-object pair。

 

2.1 The Spatial-Temporal Relation Module

做者首先對基礎的靜態物體關係模型,由  MSRA組提出的 Relation network for object detection,用於編碼 context information 來進行物體檢測的。

 

Object relation module (ORM) :

基礎物體關係模型的目標是:經過在一張靜態圖像上的其餘物體進行信息的聚合,來加強輸入的表觀特徵。

物體關係模塊能夠計算一個優化的物體特徵,經過從一個物體集合O 中進行信息聚合:

 

其中,$w_{ij}$ 是從物體 $o_j$ 到 $o_i$ 計算獲得的 attention weight;$W_v$ 是輸入特徵的轉換矩陣。而 Attention weight $w_{ij}$ 能夠在考慮到投影后的表觀類似性 $w_{ij}^A$,以及幾何關係模型 $w_{ij}^G$以後獲得:

 

其中,$w_{ij}^A$ 表示 the scaled dot product of projected appearance feature, 公式化表達爲:

 

$w_{ij}^G$ 是經過相對位置 ,用一個小網絡獲得的。原始的物體關係模型僅僅在空間領域進行推理。爲了更好發揮其在 MOT 中的優點,咱們將該模型拓展到 temporal domain。

 

Extension to the Sptial-Temporal Domain

該物體關係模型能夠直觀的進行拓展,即:將上一幀的物體信息也考慮到 object set O 中。這種方法很明顯是 sub-optimal:

1). 因爲有更多的物體涉及到推理過程當中,複雜度明顯變大了;

2). 時間和空間的關係被無差異的進行處理了。

可是,做者認爲時間和空間關係對信息的編碼,應該是有不一樣貢獻的。The spatial relation 能夠從建模不一樣物體之間的拓撲關係獲得優點;The temporal relation 適合用於從多幀上聚合特徵,從而能夠避免低質量的 BBox 帶來的干擾。

 

考慮到時空關係的不一樣效果,咱們提出一種新的時空關係模型,如圖1所示。首先在每一幀進行 spatial domain 的推理,該空間推理過程,利用自動學習的拓撲信息,增強了輸入的表觀特徵。而後經過空間關係推理,將加強後的特徵在多幀上進行信息聚合。

 

這兩種關係服從不一樣的形式。空間關係推理過程嚴格的服從 Eq. 1, 來編碼拓撲信息,結果輸出特徵記爲: 。圖 4 展現了不一樣幀之間空間注意力權重的學習過程。總的來講,在不一樣幀上的注意力權重是穩定的,說明捕獲了拓撲表達。

 

時間關係的推理過程是在空間關係推理以後進行的。因爲硬件設備的限制,做者考慮了過去 T1 幀的信息聚合(默認設置爲 10):

 

在每一個輸入特徵上定義的 attention weight,記爲:

 

公式 4 實際上是最近視頻幀的物體特徵的加權平均。學習到的時間注意力權重如圖 5 所示。能夠發現,模糊的,錯誤或者部分遮擋的物體被賦予較小的權重,代表能夠自動學習到特徵的質量,因此,能夠很好的下降這些低質量的檢測結果對 tracklet 的表達。

 

2.2 Design of Feature Representation 

在上面講完關係模型的構建以後,做者接下來開始着重講解如何學習很好的特徵表達。由於特徵表達直接和最終性能相掛鉤。做者採用兩層網絡,來實現 tracklet 和 objects 之間類似性的度量:

 

其中,黃色區域的幾個元素分別表明:relation feature, consine similarity, location features and motion features。

 

2.2.1 Relation Features

 

做者對輸入的關係特徵進行 linear transform,做爲 base feature type:

 

其中,$W_R$ 是用於 feature fusion 的線性轉換。

 

直接利用組合後的關係特徵能夠計算不一樣 modes 的類似性。可是,the freedom in representation is double-edged 也增長了學習各自特徵的複雜度。爲了解決該問題,做者提出顯示的計算兩個關係特徵的餘弦距離:

 

其中,$W_C$ 是一個 linear layer 將原始的關係特徵,投影到低維度的表達,即128-D。具體的各類特徵計算方法,以下圖 6 所示:

 

 

2.2.2 Location Features 

位置/運動特徵 (Location/motion feature) 是另外一種普遍應用於計算類似性得分的線索。咱們將位置/運動特徵從 tracklet 的最後一幀,來表示整個的,由於遠距離幀的位置/運動模型可能致使當前幀的漂移。位置特徵能夠結合到做者提出的 pipeline 中。將 bare location features 首先進行 embedding,投射到高維度的空間,而後將其與 relation feature 進行組合,來產生最終的類似性得分。進行映射和投影的方法以下:

 

其中,* 是 {L, M} 之一。第一種是包圍盒歸一化後的絕對位置 (the normalized absolute location of bounding box): 

 

The other location feature depit the motion information of an object in consecutive frames: 

 

 

3. Experiments

做者在多個 MOT 的 benchmark 上進行了實驗,結果以下:

 

相關文章
相關標籤/搜索