論文筆記:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

Siamese Cascaded Region Proposal Networks for Real-Time Visual Trackinghtml

2019-03-20 16:45:23網絡

 

Paperhttps://arxiv.org/pdf/1812.06148.pdf ide

Code:(尚無)函數

 

背景與動機:優化

本文提出一種級聯的 RPN 網絡結合到 Siamese RPN 網絡中,而後取得了更好的跟蹤效果。本文的動機以下:
1). 正負樣本的比例,不一致,致使 Siamese Network 的訓練不夠有效;大部分的負樣本都是簡單樣本,對最終的結果貢獻很小,因此,在出現類似物體的時候,常常會出現跟蹤混淆;
spa

2). Low-level spatial features 並無充分的被探索;3d

3). One-stage Siamese RPN 採用 單個迴歸器進行物體的定位,可是實際上並無很好的處理跟蹤中物體的尺寸變換的問題。利用預先定義好的 Coarse anchor Box 不能很好的進行精確的定位;orm

 

因而,根據上述動機,做者引入 多級的 RPN 網絡,來解決定位問題;同時選擇 hard negative samples 來改善網絡的魯棒性。此外,做者還引入了多層特徵的融合,獲得了更好的特徵表達。htm

網絡結構blog

1. Siamese-RPN 的簡介:

  詳見其原始 paper:High performance visual tracking with siamese region proposal network

 

2. Cascaded RPN:

前人的方法大部分都忽略了 class imbalance 的問題,致使在出現類似性物體的時候,效果不佳。此外,他們也僅用 high-level semantic features 來進行跟蹤,而不多考慮 multi-level feature。爲了解決上述這兩個問題,本文提出多階段的跟蹤方法,細節以下:

對於每個階段的 RPN,其利用 FTB 模塊來融合來自第 l 個 convolutional layer 的特徵 以及 high-level feature,融合後的特徵能夠用下面的公式進行表達:

其中 FTB 表明以下圖所示的多特徵融合模塊。主要是對較低分辨率的圖像利用 Deconvlutional layer 進行升分辨率處理,獲得的特徵卷積後,與另一支進行元素集相加(element-wise summarize)獲得最終的結果,細節見圖 6。

對於,RPN-1 來講,

因此,stage l 中每個 anchor 的分類得分 和 迴歸的偏執,計算以下:

 

咱們用 Al 表示在階段 l 的 anchor set。根據分類的得分,咱們能夠過濾出該集合中的樣本,當其 negative confidence 大於預先設定的閾值時。而後,剩下的那些樣本就構成了新的 anchor 集合 Al+1,而且用於訓練 RPNl+1。此外,爲了提供更好的初始化,咱們優化了 Al+1 中 anchor 的 center location 以及 size,因此,產生了更加準確的定位。做者也提供了一個案例,來代表 BBox 的準確性提高。

RPNl 的損失函數 $L_{RPN_l}$ 包含分類損失 $L_{cls}$ 以及 迴歸損失 $L_{loc}$,其定義以下:

其中,$r_i^{l*}$ 表示 anchor i 和 gt 之間的真實距離。服從前人工做,做者也將 $r_i^{l*}$ 設置爲 4d 的向量,以下所示:

其中,x, y, w, h 是 BBox 的中心點 及其 寬高。與常規的固定 anchor 不一樣,C-RPN 的 anchors 能夠進行微調:

對於第一個階段的 anchor,$x_a^1, y_a^1, w_a^1, h_a^1$ 是預先設定的。

【注】此處關於損失函數講的不是特別清晰,關於迴歸損失函數的定義,能夠參考 Faster RCNN

 

上述過程構成了所提出的級聯 RPN。其最終的損失函數 $L_{CRPN}$ 就是各個 RPN 損失函數的和:

 

 

實驗結果

 

==

相關文章
相關標籤/搜索