from https://blog.csdn.net/weixin_40645129/article/details/81173088html
CVPR2018已公佈關於視頻目標跟蹤的論文簡要分析與總結算法
一,A Twofold Siamese Network for Real-Time Object Tracking網絡
論文名稱框架 |
A Twofold Siamese Network for Real-Time Object Tracking函數 |
簡介性能 |
此算法在SiamFC的基礎上增長了語義分支,進一步提高SiamFC的判別力,從而提高了跟蹤效果,即便損失了一些速度,可是仍然達到了實時的跟蹤速度。總的來講,本文思路簡單明瞭,邏輯清晰,道理透徹,是一個不錯的單目標跟蹤工做,惟一欠缺的是其仍然沿用SiamFC在跟蹤過程當中全部幀都和第一幀對比,是該類方法的主要缺陷。學習 |
創新點測試 |
1:將圖像分類任務中的語義特徵與類似度匹配任務中的外觀特徵互補結合,很是適合目標跟蹤任務,所以此算法能夠簡單歸納爲:SA-Siam=語義分支+外觀分支;優化 2:對於新引入的語義分支,此算法進一步提出了通道注意力機制。在使用網絡提取目標物體的特徵時,不一樣的目標激活不一樣的特徵通道,做者對被激活的通道賦予高的權值,此算法經過目標物體在網絡特定層中的響應計算這些不一樣層的權值。編碼 3:Motivation:目標跟蹤的特色是,做者從衆多背景中區分出變化的目標物體,其中難點爲:背景和變化。此算法的思想是用一個語義分支過濾掉背景,同時用一個外觀特徵分支來泛化目標的變化,若是一個物體被語義分支斷定爲不是背景,而且被外觀特徵分支判斷爲該物體由目標物體變化而來,那就認爲這個物體即須要被跟蹤的物體; |
主要框架 |
基於SiamFC修改,Siamese 網絡 |
效果 |
速度:50fps, 語義分支權重:外觀分支權重 = 7:3 OTB實驗:OTB-2013(0.896,0.677),OTB-2015(0.865,0.657) |
代碼 |
沒公佈 |
二,Context-aware Deep Feature Compression for High-speed Visual Tracking
論文名稱 |
Context-aware Deep Feature Compression for High-speed Visual Tracking |
簡介 |
做者提出了一種在實時跟蹤領域高速且state-of-the-art表現的基於context-aware correlation filter的跟蹤框架。這個方法的高速性依賴於會根據內容選擇對應的專家自編碼器來對圖片進行壓縮;context在此算法中表示根據要跟蹤目標的外觀大體分的類。在預訓練階段,每一個類訓練一個自編碼器。在跟蹤階段,根據給定目標選擇最佳的自編碼器——專家自編碼器,而且在下面階段中僅使用這個網絡。爲了在壓縮後的特徵圖上達到好的跟蹤效果,做者分別在與訓練階段和微調專家自編碼器階段提出了一種去噪過程和新的正交損失函數。 |
創新點 |
對於視頻這種高維度數據,做者訓練了多個自編碼器AE來進行數據壓縮,至於怎麼選擇具體的網絡, 本文創新的地方在於: |
主要框架 |
correlation filter+ VGG-Net |
效果 |
速度:超過100fps。 精度: |
代碼 |
沒公佈 |
三,Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking
論文名稱 |
Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking(STRCF) |
簡介 |
此算法研究了在不損失效率的狀況下,利用空間正則化和大型訓練集形式的優勢的方法。一方面,SRDCF 的高複雜度主要來源於對多幅圖像的訓練形式。經過去除約束條件,單圖像樣本上的 SRDCF 能夠經過 ADMM 有效地解決。因爲 SRDCF 的凸性,ADMM 也能保證收斂到全局最優。另外一方面,在 SRDCF 算法中,將空間正則化集成到多幅圖像的訓練形式中,實現了 DCF 學習與模型更新的耦合,提升了追蹤準確率。在在線被動攻擊 ( PA ) 學習 [ 6] 的啓發下,做者將時間正則化方法引入到單圖像 SRDCF 中,獲得了時空正則化相關濾波器 ( STRCF )。STRCF 是多訓練圖像上 SRDCF 形式的合理近似,也可用於同時進行 DCF 學習和模型更新。此外,ADMM 算法也能夠直接用於求解 STRCF。所以,本文提出的 STRCF 將空間正則化和時間正則化結合到 DCF 中,能夠用來加速 SRDCF。此外,做爲在線 PA 算法的擴展,STRCF 還能夠在外觀大幅變化的狀況下實現比 SRDCF 更魯棒的外觀建模。與 SRDCF 相比,引入時間正則化後的 STRCF 對遮擋具備更強的魯棒性,同時可以很好地適應較大的外觀變化。 |
創新點 |
|
主要框架 |
相關濾波,HOG,CN特徵 |
效果 |
SRDCF 的變體和使用 HOG 特徵的 STRCF 在 OTB-2015 和 Temple-Color 數據集上關於 OP(%)和速度(FPS)的比較。
|
代碼 |
沒公佈 |
四,End-to-end Flow Correlation Tracking with Spatial-temporal Attention
論文名稱 |
End-to-end Flow Correlation Tracking with Spatial-temporal Attention |
簡介 |
首先是motivation,做者注意到幾乎全部的跟蹤器都只用到了RGB信息,不多有用到視頻幀和幀之間豐富的運動信息;這就致使了跟蹤器在目標遇到運動模糊或者部分遮擋的時候,性能只能依靠離線訓練的特徵的質量,魯棒性很難保證。因而做者就想利用視頻中的運動信息(Flow)來補償這些狀況下RGB信息的不足,來提高跟蹤器的性能. 具體來講,做者首先利用歷史幀和當前幀獲得Flow,利用Flow信息把歷史幀warp到當前幀,而後將warp過來的幀和原本的當前幀進行融合,這樣就獲得了當前幀不一樣view的特徵表示,而後在Siamese和DCF框架下進行跟蹤. |
創新點 |
1. 第一篇把Flow提取和tracking任務統一在一個網絡裏面的工做。 2.採用Siamese結構,分爲historical branch和current branch. 在historical branch裏面,進行Flow的提取和warp, 3.在融合階段,咱們設計了一種spatial-temporal attention的機制. 4.在current branch,只提取特徵. Siamese結構兩支出來的特徵送進DCF layer, 獲得response map. 總結來講,就是把Flow提取,warp操做,特徵提取和融合,CF tracking都作成了網絡的layer,端到端地訓練它們。 |
主要框架 |
Siamese結構和DCF框架 |
效果 |
VOT2015結果 |
代碼 |
沒公佈 |
五, Visual Tracking via Adversarial Learning
論文名稱 |
Visual Tracking via Adversarial Learning(VITAL) |
簡介 |
|
創新點 |
此算法主要分析了現有的檢測式跟蹤的框架在模型在線學習過程當中的兩個弊病,即: 2.正負樣本之間存在嚴重的不均衡分佈的問題; |
主要框架 |
在VGG-M模型基礎上進行改進 |
效果 |
速度:1.5fps,(在Tesla K40c GPU下的速度) |
代碼 |
沒公佈 |
六,Unveiling the Power of Deep Tracking
論文名稱 |
Unveiling the Power of Deep Tracking(ECO+) |
簡介 |
論文是對ECO的改進,deep tracker沒法受益於更好更深CNN的深度特徵,針對這一反常現象,實驗和分析代表這主要是因爲淺層特徵和深度特徵的特性差別,兩種特徵分而治之,深度特徵部分加入了數據加強增長訓練樣本數量,用不一樣label function,淺層特徵正樣本更少,深度特徵正樣本更多。兩部分響應圖自適應融合,提出了能夠同時反映準確性和魯棒性的檢測質量估計方法,基於這個質量評估,最優化方法自適應融合兩部分的響應圖,獲得最優的目標定位結果。實驗結果在各個測試集上都是目前最好。 |
創新點 |
ECO+對ECO的核心改進是: 兩種特徵區別對待,分而治之,深度特徵負責魯棒性,淺層特徵負責準確性,兩種檢測響應圖在最後階段自適應融合,目標定位最優化,兼具二者的優點。 |
主要框架 |
對ECO的改進,相關濾波+深度特徵 |
效果 |
精度: |
代碼 |
沒公佈 |
七,Learning Spatial-Aware Regressions for Visual Tracking
八,Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
論文名稱 |
Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking |
簡介 |
RASNet使用三個attention機制對SiamFC特徵的空間和channel進行加權,分解特徵提取和判別性分析的耦合,用來提高判別能力。 |
創新點 |
1.做者作的工做的本質就是讓網絡去預測對偶變量。 2.爲了增長網絡的判別能力,一個通用的attention彷佛並不夠。CF根據每一個模板圖像進行學習,獲得很好的判別器。做者也模仿這個機制,根據第一幀圖像的feature,使用網絡學習一個動態的attention。 3.能讓網絡學習的就學習,儘可能避免在線學習。 4.提出殘差結構,但願殘差學習的部分的均值近似爲0。 |
主要框架 |
深度學習框架 |
效果 |
精度: |
代碼 |
沒公佈 |