CVPR2018 單目標跟蹤部分論文

時間 2020-08-10

標籤 cvpr2018 cvpr 目標跟蹤部分論文简体版

原文原文鏈接

from https://blog.csdn.net/weixin_40645129/article/details/81173088html

CVPR2018已公佈關於視頻目標跟蹤的論文簡要分析與總結算法

一，A Twofold Siamese Network for Real-Time Object Tracking網絡

論文名稱框架	A Twofold Siamese Network for Real-Time Object Tracking函數
簡介性能	此算法在SiamFC的基礎上增長了語義分支，進一步提高SiamFC的判別力，從而提高了跟蹤效果，即便損失了一些速度，可是仍然達到了實時的跟蹤速度。總的來講，本文思路簡單明瞭，邏輯清晰，道理透徹，是一個不錯的單目標跟蹤工做，惟一欠缺的是其仍然沿用SiamFC在跟蹤過程當中全部幀都和第一幀對比，是該類方法的主要缺陷。學習
創新點測試	1：將圖像分類任務中的語義特徵與類似度匹配任務中的外觀特徵互補結合，很是適合目標跟蹤任務，所以此算法能夠簡單歸納爲：SA-Siam=語義分支+外觀分支；優化 2：對於新引入的語義分支，此算法進一步提出了通道注意力機制。在使用網絡提取目標物體的特徵時，不一樣的目標激活不一樣的特徵通道，做者對被激活的通道賦予高的權值，此算法經過目標物體在網絡特定層中的響應計算這些不一樣層的權值。編碼 3：Motivation：目標跟蹤的特色是，做者從衆多背景中區分出變化的目標物體，其中難點爲：背景和變化。此算法的思想是用一個語義分支過濾掉背景，同時用一個外觀特徵分支來泛化目標的變化，若是一個物體被語義分支斷定爲不是背景，而且被外觀特徵分支判斷爲該物體由目標物體變化而來，那就認爲這個物體即須要被跟蹤的物體； 4：此算法的目的是提高SiamFC在目標跟蹤任務中的判別力。做者提出了SA-Siam，這是一個雙重Siamese網絡，由語義分支和外觀分支組成。每個分支都使用Siamese網絡結構計算候選圖片和目標圖片的類似度。爲了保持兩個分支的獨立性，兩個Siamese網絡在訓練過程當中沒有任何關係，僅僅在測試過程當中纔會結合。
主要框架	基於SiamFC修改，Siamese 網絡
效果	速度：50fps，語義分支權重：外觀分支權重 = 7：3 OTB實驗：OTB-2013（0.896，0.677），OTB-2015（0.865，0.657）
代碼	沒公佈

二，Context-aware Deep Feature Compression for High-speed Visual Tracking

論文名稱	Context-aware Deep Feature Compression for High-speed Visual Tracking
簡介	做者提出了一種在實時跟蹤領域高速且state-of-the-art表現的基於context-aware correlation filter的跟蹤框架。這個方法的高速性依賴於會根據內容選擇對應的專家自編碼器來對圖片進行壓縮；context在此算法中表示根據要跟蹤目標的外觀大體分的類。在預訓練階段，每一個類訓練一個自編碼器。在跟蹤階段，根據給定目標選擇最佳的自編碼器——專家自編碼器，而且在下面階段中僅使用這個網絡。爲了在壓縮後的特徵圖上達到好的跟蹤效果，做者分別在與訓練階段和微調專家自編碼器階段提出了一種去噪過程和新的正交損失函數。
創新點	對於視頻這種高維度數據，做者訓練了多個自編碼器AE來進行數據壓縮，至於怎麼選擇具體的網絡，做者又訓練了一個基於目標選擇具體AE的網絡，再根據壓縮後的特徵圖，進行協相關過濾操做追蹤目標。本文創新的地方在於： 1. 兩種加噪聲的操做，既增長了魯棒性，又至關於數據加強。 2. 爲了自編碼器的平穩訓練和防過擬合提出了multi-stage distance loss。 3. 最後移除相應低的通道和自編碼器針對通道而不針對圖像大小。
主要框架	correlation filter+ VGG-Net
效果	速度：超過100fps。精度：
代碼	沒公佈

三，Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking

論文名稱	Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking(STRCF)
簡介	此算法研究了在不損失效率的狀況下，利用空間正則化和大型訓練集形式的優勢的方法。一方面，SRDCF 的高複雜度主要來源於對多幅圖像的訓練形式。經過去除約束條件，單圖像樣本上的 SRDCF 能夠經過 ADMM 有效地解決。因爲 SRDCF 的凸性，ADMM 也能保證收斂到全局最優。另外一方面，在 SRDCF 算法中，將空間正則化集成到多幅圖像的訓練形式中，實現了 DCF 學習與模型更新的耦合，提升了追蹤準確率。在在線被動攻擊 ( PA ) 學習 [ 6] 的啓發下，做者將時間正則化方法引入到單圖像 SRDCF 中，獲得了時空正則化相關濾波器 ( STRCF )。STRCF 是多訓練圖像上 SRDCF 形式的合理近似，也可用於同時進行 DCF 學習和模型更新。此外，ADMM 算法也能夠直接用於求解 STRCF。所以，本文提出的 STRCF 將空間正則化和時間正則化結合到 DCF 中，能夠用來加速 SRDCF。此外，做爲在線 PA 算法的擴展，STRCF 還能夠在外觀大幅變化的狀況下實現比 SRDCF 更魯棒的外觀建模。與 SRDCF 相比，引入時間正則化後的 STRCF 對遮擋具備更強的魯棒性，同時可以很好地適應較大的外觀變化。
創新點	經過將空間和時間正則化歸入 DCF 框架，提出了 STRCF 模型。基於在線 PA 的 STRCF 不只能夠合理地逼近多幅訓練圖像上的 SRDCF 形式，並且在較大的外觀變化狀況下比 SRDCF 具備更強的魯棒性。爲高效求解 STRCF，開發了一種 ADMM 算法，其中每一個子問題都有封閉形式的解。而且本文提出的算法能夠在很是少的迭代中經驗地收斂。本文提出的 STRCF 具備人工設計的特徵，能夠實時運行，相比 SRDCF 在準確率上有了顯著的提高。
主要框架	相關濾波，HOG，CN特徵
效果	SRDCF 的變體和使用 HOG 特徵的 STRCF 在 OTB-2015 和 Temple-Color 數據集上關於 OP（%）和速度（FPS）的比較。
代碼	沒公佈

四，End-to-end Flow Correlation Tracking with Spatial-temporal Attention

論文名稱	End-to-end Flow Correlation Tracking with Spatial-temporal Attention
簡介	首先是motivation，做者注意到幾乎全部的跟蹤器都只用到了RGB信息，不多有用到視頻幀和幀之間豐富的運動信息；這就致使了跟蹤器在目標遇到運動模糊或者部分遮擋的時候，性能只能依靠離線訓練的特徵的質量，魯棒性很難保證。因而做者就想利用視頻中的運動信息（Flow）來補償這些狀況下RGB信息的不足，來提高跟蹤器的性能. 具體來講，做者首先利用歷史幀和當前幀獲得Flow，利用Flow信息把歷史幀warp到當前幀，而後將warp過來的幀和原本的當前幀進行融合，這樣就獲得了當前幀不一樣view的特徵表示，而後在Siamese和DCF框架下進行跟蹤.
創新點	1. 第一篇把Flow提取和tracking任務統一在一個網絡裏面的工做。 2.採用Siamese結構，分爲historical branch和current branch. 在historical branch裏面，進行Flow的提取和warp， 3.在融合階段，咱們設計了一種spatial-temporal attention的機制. 4.在current branch，只提取特徵. Siamese結構兩支出來的特徵送進DCF layer, 獲得response map. 總結來講，就是把Flow提取，warp操做，特徵提取和融合，CF tracking都作成了網絡的layer，端到端地訓練它們。
主要框架	Siamese結構和DCF框架
效果	VOT2015結果
代碼	沒公佈

五， Visual Tracking via Adversarial Learning

論文名稱	Visual Tracking via Adversarial Learning（VITAL）
簡介	此算法在VGG-M模型基礎上進行改進，在最後一個卷積層和第一個全鏈接層之間增長了一個產生式網絡，從而達到在特徵空間加強正樣本的目的。具體的，產生式網絡輸入爲目標特徵，輸出爲一個mask矩陣，該mask矩陣做用於目標特徵後表示目標的一種外觀變化。經過對抗學習，該產生式網絡能夠產生能保留目標特徵中最魯棒部分的mask矩陣。最終，訓練獲得的產生式網絡生成的mask矩陣能夠對判別力強的特徵進行削弱，防止判別器過擬合於某個樣本。此算法提出了一個高階敏感損失來減少簡單負樣本對於分類器訓練的影響，這個道理很簡單，那些明明很容易被分類正確的負樣本其實在訓練過程當中也會產生損失，然而不但願網絡關注這些損失，由於關注他們反而會使得網絡性能變差，實驗證實，此算法提出的新的損失函數不但能夠提高精度，同時能夠加速訓練的收斂。
創新點	此算法主要分析了現有的檢測式跟蹤的框架在模型在線學習過程當中的兩個弊病，即： 1.每一幀中正樣本高度重疊，他們沒法捕獲物體豐富的變化表徵； 2.正負樣本之間存在嚴重的不均衡分佈的問題；針對上述問題，本文提出 VITAL 這個算法來解決，主要思路以下： 1.爲了豐富正樣本，做者採用生成式網絡來隨機生成mask，且這些mask做用在輸入特徵上來捕獲目標物體的一系列變化。在對抗學習的做用下，做者的網絡可以識別出在整個時序中哪種mask保留了目標物體的魯邦性特徵； 2.在解決正負樣本不均衡的問題中，本文提出了一個高階敏感損失來減少簡單負樣本對於分類器訓練的影響。
主要框架	在VGG-M模型基礎上進行改進
效果	速度：1.5fps，（在Tesla K40c GPU下的速度）
代碼	沒公佈

六，Unveiling the Power of Deep Tracking

論文名稱	Unveiling the Power of Deep Tracking（ECO+）
簡介	論文是對ECO的改進，deep tracker沒法受益於更好更深CNN的深度特徵，針對這一反常現象，實驗和分析代表這主要是因爲淺層特徵和深度特徵的特性差別，兩種特徵分而治之，深度特徵部分加入了數據加強增長訓練樣本數量，用不一樣label function，淺層特徵正樣本更少，深度特徵正樣本更多。兩部分響應圖自適應融合，提出了能夠同時反映準確性和魯棒性的檢測質量估計方法，基於這個質量評估，最優化方法自適應融合兩部分的響應圖，獲得最優的目標定位結果。實驗結果在各個測試集上都是目前最好。
創新點	ECO+對ECO的核心改進是：兩種特徵區別對待，分而治之，深度特徵負責魯棒性，淺層特徵負責準確性，兩種檢測響應圖在最後階段自適應融合，目標定位最優化，兼具二者的優點。
主要框架	對ECO的改進，相關濾波+深度特徵
效果	精度：
代碼	沒公佈

七，Learning Spatial-Aware Regressions for Visual Tracking

論文名稱	Learning Spatial-Aware Regressions for Visual Tracking
簡介	利用核嶺迴歸分析(KRR)和卷積神經網絡(CNN)互補的跟蹤。前者側重於總體的目標,後者關注當地的小區域。他們提出的追蹤器以一種新的方式結合了CNN和相關濾波，經過設計算法讓CNN專一於特定區域的迴歸，相關濾波專一於全局的迴歸，在最後對迴歸的結果進行組合，以互補的方式獲得物體的精肯定位。文章旨在將CNN和KRR結合起來，其中CNN用於用於關注目標的局部信息，KRR用於關注目標的總體信息；
創新點	從新定義KRR中核的計算以及KRR的求解方法 1，用將目標分割成部件的思想定義了新的求核相關值的方法，並將該方法融入到CNN中做爲一個組件進行高效求解； 2，在CNN用於跟蹤的任務中提出了空間正則化方法（相似SRDCF思想），主要作法是經過學習強制讓CNN的各個通道分別關注於目標特定的子區域； 3，提出了適用於跟蹤的新的Pooling方法：distance transform pooling用於判斷CNN輸出層的有效性； 4，將1和2中的結果進行融合，共同肯定目標位置；
主要框架	深度學習框架
效果	VOT2017 比賽性能第一；速度：1fps，沒有實時； OTB-100性能：精度——0.923，覆蓋率——0.672；
代碼	http://data.votchallenge.net/vot2017/trackers/24_LSART.zip

八，Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking

論文名稱	Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
簡介	RASNet使用三個attention機制對SiamFC特徵的空間和channel進行加權，分解特徵提取和判別性分析的耦合，用來提高判別能力。
創新點	1.做者作的工做的本質就是讓網絡去預測對偶變量。 2.爲了增長網絡的判別能力，一個通用的attention彷佛並不夠。CF根據每一個模板圖像進行學習，獲得很好的判別器。做者也模仿這個機制，根據第一幀圖像的feature，使用網絡學習一個動態的attention。 3.能讓網絡學習的就學習，儘可能避免在線學習。 4.提出殘差結構，但願殘差學習的部分的均值近似爲0。
主要框架	深度學習框架
效果	精度：
代碼	沒公佈