Spatial-Temporal Relation Networks for Multi-Object Tracking

時間 2019-12-06

標籤 spatial temporal relation networks multi object tracking 简体版

原文原文鏈接

Spatial-Temporal Relation Networks for Multi-Object Tracking算法

2019-05-21 11:07:49網絡

Paper: https://arxiv.org/pdf/1904.11489.pdf
app

1. Background and Motivation: 框架

多目標跟蹤的目標是：定位物體而且在視頻中仍然能夠保持他們的身份。該任務已經應用於多種場景，如視頻監控，體育遊戲分析，自動駕駛等等。大部分的方法都依賴於「tracking-by-detection」的流程，即：首先在每一幀進行物體檢測，而後在後續的視頻中將其鏈接起來。這種分解的流程，極大地下降了整體的複雜度，而後將主要問題變成了更加純粹的問題：object association。這種思路主要受益於物體檢測領域的快速發展，而且在多個 MOT 的 benchmark 上取得了頂尖的檢測效果。dom

整體來講，這種經過聯繫物體（Object Association）的方法很大程度上依賴於魯棒的類似性得分。這種類似性得分在大部分現有的方法中，都僅依賴於摳出來物體的表觀特徵（appearance feature）。這種類似性度量方法的結果是很是受限的：1). 所要跟蹤的物體，在跟蹤場景中，一般僅僅是一類，即：「Human」，一般很是難以區分；2). 跨越不一樣幀的物體，一般也受到遮擋，圖像質量，姿態變化的影響，從而進一步增長了其魯棒得分的難度。ide

探索不一樣信息的前人工做也都在嘗試如何有效的構建類似性得分。CNN 被很好的研究而且用於編碼外觀信息，手工設計的位置信息也被結合到 appearance cue。Bound Box 之間的拓撲結構對於判斷是否給定的 BBox 對錶示同一個物體，特別對於遮擋的場景來講。如圖 1 所示，第一幀和第 t-k 幀中的橘色 BBox 和第 t 幀的藍色 BBox 表示同一個行人。雖然第 t 幀的行人被另外一個行人遮擋了，而且其外觀仍然對於前面的視頻幀來講，有較大的不一樣，可是其拓撲結構仍然是一致的，使得觀測到的行人身份仍然是可識別的。此外，跨幀的信息融合，也被證實對於衡量類似度來講是有用的。函數

可是這些信息都是異構的表達，如何將這些信息進行整合，融合到一個框架中，現有的工做要麼依賴於 cue-specific mechanism，要麼須要頂尖的學習方法。本文的工做則是受到 natural language 和 CV 中關係網絡成功應用的啓發。在關係網絡中，每個元素經過一個 content-aware aggregation weight 從其餘元素來進行特徵聚合，能夠自動根據任務的目標實現自動學習，而不須要顯示的監督信息。因爲不須要過多關於數據格式的假設，關係網絡被普遍的應用於建模 distant, non-grid 或者 differently distributed data 之間的關係，例如 word-word, pixel-pixel and object-object 之間的關係。這些數據格式的很難用常規的卷積和循環網絡建模。性能

該文章中，咱們提出了一個聯合的框架，經過將多種線索以一種端到端的方式進行類似性度量，從空間領域到時空領域拓展 object-object relation。有了這種關係網絡的拓展，咱們能夠很好的編碼 objects 和 tracklets 的外觀和拓撲結構。同時也能夠適應基於 location 的位置信息。學習

時空關係網絡受限被應用到每一幀來增強空間上物體的外觀表達。而後，在其參考的 tracklet 上的加強特徵隨着時間，經過採用咱們的關係網絡進行聚合。最終，在 tracklet 上聚合的特徵，加強的目標特徵被組合起來，以豐富 tracklet-object pair 的表達，並從而產生一個類似性得分。做者發現，tracklet-object pair 合適的特徵表達也是類似性度量的關鍵所在。本文的算法被稱爲：spatial-temporal relation networks (STRN), 能夠進行端到端的訓練，而且在多個 MOT benchmark 上取得了頂尖的效果。優化

2. The Proposed Method:

MOT 問題的定義：本文的算法示意圖如圖 2 所示。輸入是 video，而後進行物體檢測，獲得行人的檢測結果，即：BBox。而後在每一幀中，都進行前面一些幀獲得的 tracklets 和當前幀的檢測結果 proposal 的匹配。那麼，很天然的一個問題就是：如何很好的衡量這些 tracklets 和 proposals 之間的類似度度量問題？若是能夠很好的度量其類似度，就能夠很好的將其串起來，造成每個目標物體的軌跡，從而完成多目標跟蹤。將第 t-1 幀以前的第 i 個以前的 tracklet 記爲：$T^{t-1}_i = \{b_i^1, b_i^2, ... , b_i^{t-1}\}$，當前幀 t 中檢測到的物體記爲：$D_t = \{b_j^t\}_{j=1}^{N_t}$。每個 pair $(T^{t-1}_i, b_j^t)$ 被賦予一個類似性得分 $s_{ij}^t$。

本文算法總覽：這篇文章就是經過時空關係網絡，將上述提到的 appearance，location，topology cues，and aggregating informaton over time 都用於計算類似性得分。圖 3 展現了類似性計算的整個過程。首先，首先用基礎的深度網絡，ResNet-50 來提取 appearance feature；而後，跨越時空的表觀特徵經過 Spatial-temproal relation module (STRM) 來進行推理，獲得了空間加強的表達和時間加強的表達。雖然這兩個加強後的特徵，咱們進一步的獲得兩種特徵，經過將其進行組合，而後分別計算其他弦類似度。最終，咱們組合 the relation feature 和 unary location feature, motion feature 做爲tracklet-object pair 的表達。對應的，該類似性得分是由兩層網絡和sigmoid 函數獲得的。

緊接着，做者對該流程中的主要模塊進行詳細的介紹，主要包括：Spatial-temporal relation module (STRM), the design of the feature presentation for a tacklet-object pair。

2.1 The Spatial-Temporal Relation Module:

做者首先對基礎的靜態物體關係模型，由 MSRA組提出的 Relation network for object detection，用於編碼 context information 來進行物體檢測的。

Object relation module (ORM) :

基礎物體關係模型的目標是：經過在一張靜態圖像上的其餘物體進行信息的聚合，來加強輸入的表觀特徵。

物體關係模塊能夠計算一個優化的物體特徵，經過從一個物體集合O 中進行信息聚合：

其中，$w_{ij}$ 是從物體 $o_j$ 到 $o_i$ 計算獲得的 attention weight；$W_v$ 是輸入特徵的轉換矩陣。而 Attention weight $w_{ij}$ 能夠在考慮到投影后的表觀類似性 $w_{ij}^A$，以及幾何關係模型 $w_{ij}^G$以後獲得：

其中，$w_{ij}^A$ 表示 the scaled dot product of projected appearance feature, 公式化表達爲：

$w_{ij}^G$ 是經過相對位置，用一個小網絡獲得的。原始的物體關係模型僅僅在空間領域進行推理。爲了更好發揮其在 MOT 中的優點，咱們將該模型拓展到 temporal domain。

Extension to the Sptial-Temporal Domain:

該物體關係模型能夠直觀的進行拓展，即：將上一幀的物體信息也考慮到 object set O 中。這種方法很明顯是 sub-optimal：

1). 因爲有更多的物體涉及到推理過程當中，複雜度明顯變大了；

2). 時間和空間的關係被無差異的進行處理了。

可是，做者認爲時間和空間關係對信息的編碼，應該是有不一樣貢獻的。The spatial relation 能夠從建模不一樣物體之間的拓撲關係獲得優點；The temporal relation 適合用於從多幀上聚合特徵，從而能夠避免低質量的 BBox 帶來的干擾。

考慮到時空關係的不一樣效果，咱們提出一種新的時空關係模型，如圖1所示。首先在每一幀進行 spatial domain 的推理，該空間推理過程，利用自動學習的拓撲信息，增強了輸入的表觀特徵。而後經過空間關係推理，將加強後的特徵在多幀上進行信息聚合。

這兩種關係服從不一樣的形式。空間關係推理過程嚴格的服從 Eq. 1, 來編碼拓撲信息，結果輸出特徵記爲：。圖 4 展現了不一樣幀之間空間注意力權重的學習過程。總的來講，在不一樣幀上的注意力權重是穩定的，說明捕獲了拓撲表達。

時間關係的推理過程是在空間關係推理以後進行的。因爲硬件設備的限制，做者考慮了過去 T1 幀的信息聚合（默認設置爲 10）：

在每一個輸入特徵上定義的 attention weight，記爲：

公式 4 實際上是最近視頻幀的物體特徵的加權平均。學習到的時間注意力權重如圖 5 所示。能夠發現，模糊的，錯誤或者部分遮擋的物體被賦予較小的權重，代表能夠自動學習到特徵的質量，因此，能夠很好的下降這些低質量的檢測結果對 tracklet 的表達。

2.2 Design of Feature Representation :

在上面講完關係模型的構建以後，做者接下來開始着重講解如何學習很好的特徵表達。由於特徵表達直接和最終性能相掛鉤。做者採用兩層網絡，來實現 tracklet 和 objects 之間類似性的度量：

其中，黃色區域的幾個元素分別表明：relation feature, consine similarity, location features and motion features。

2.2.1 Relation Features.

做者對輸入的關係特徵進行 linear transform，做爲 base feature type:

其中，$W_R$ 是用於 feature fusion 的線性轉換。

直接利用組合後的關係特徵能夠計算不一樣 modes 的類似性。可是，the freedom in representation is double-edged 也增長了學習各自特徵的複雜度。爲了解決該問題，做者提出顯示的計算兩個關係特徵的餘弦距離：

其中，$W_C$ 是一個 linear layer 將原始的關係特徵，投影到低維度的表達，即128-D。具體的各類特徵計算方法，以下圖 6 所示：

2.2.2 Location Features :

位置/運動特徵 (Location/motion feature) 是另外一種普遍應用於計算類似性得分的線索。咱們將位置/運動特徵從 tracklet 的最後一幀，來表示整個的，由於遠距離幀的位置/運動模型可能致使當前幀的漂移。位置特徵能夠結合到做者提出的 pipeline 中。將 bare location features 首先進行 embedding，投射到高維度的空間，而後將其與 relation feature 進行組合，來產生最終的類似性得分。進行映射和投影的方法以下：

其中，* 是 {L, M} 之一。第一種是包圍盒歸一化後的絕對位置 (the normalized absolute location of bounding box):

The other location feature depit the motion information of an object in consecutive frames:

3. Experiments:

做者在多個 MOT 的 benchmark 上進行了實驗，結果以下：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。