Deeper and Wider Siamese Networks for Real-Time Visual Tracking
Updated on 2019-04-01 16:10:37
git
Paper (arXiv V3):https://arxiv.org/pdf/1901.01660.pdf
github
Code:https://github.com/researchmm/SiamDW (Training and Testing for SiamFC, but Testing only for SiamRPN)網絡
1. Background and Motivation: app
本文主要是很好的處理了跟蹤問題中一個很奇特的現象:「隨着網絡層數的層數(用現有的 ResNet, Inception 等網絡來替換 經常使用的 Backbone net,例如 AlexNet),跟蹤結果不增反而下降的狀況」。以下圖所示:ide
做者發現以下的幾個參數,對跟蹤結果的影響,很是巨大:* the receptive field size of neurons; * network stride; * feature padding 。性能
具體來講,感覺野 決定了用於計算 feature 的圖像區域。較大的感覺野,提供了更好的 image context 信息,而一個較小的感覺野可能沒法捕獲目標的結構信息;學習
網絡的步長,影響了定位準確性的程度,特別是對小目標而言;與此同時,它也控制了輸出 feature map 的大小,從而影響了 feature 的判別性和檢測精度。ui
此外,對於一個全卷積的結構來講,feature padding 對卷積來講,會在模型訓練中,引入潛在的位置偏移,從而使得當一個目標移動到接近搜索範圍邊界的時候,很難作出準確的預測。這三個因素,同時形成了 Siamese Tracker 沒法很好的從更頂尖的模型中收益。idea
本文中,做者嘗試從設計新的網絡結構的基礎上,來解決上述問題,從而使得 SiamNet 得到更好的跟蹤性能。創新點主要在於:spa
1. 做者基於 the "boottleneck" residual block 來提出一組 cropping-inside residual (CIR) units。該模塊能夠消除 padding 帶來的影響,從而組織卷積核學習 position bias;
2. 咱們設計了兩種網絡結構,經過堆疊 the CIR units,稱爲 Deeper and Wider networks。在這個網絡中,步長 和 神經感覺野 被用於加強定位的準確性;
3. 做者將所設計的 backbone network 用到 SiamFC 和 SiamRPN 網絡中。做者的實驗證實,在多個數據集上,均可以獲得大幅度的提高。另一個優點是:本文所設計的網絡結構是輕量級的,容許跟蹤器能夠實現實時跟蹤。
2. Background on Siamese Tracking:
關於孿生網絡的跟蹤器,能夠參考其原始文章。
3. Analysis of Performance Degradation:
3.1 性能分析:
做者對不一樣 backbone 的網絡結構,做者發現不一樣的影響因子(包括:stride (STR), padding (PAD), receptive field (RF) of neurons in the last layers, and output feature size (OFS))對跟蹤結果的影響不一樣,並且有些參數對結果的退化影響很是大,以下表所示:
做者得出以下的結論:
1). This illustrates that Siamese trackers prefer mid-level features (stride 4 or 8), which are more precise in object localization than high-level features (stride ≥ 16).
2). For the maximum size of receptive field (RF), the optima lies in a small range. In the cases of AlexNet, VGG-10 and ResNet-17, the optimal receptive field size is about 60%∼80% of the input exemplar image z size (e.g. 91 vs 127). It illustrates that the size of RF (感覺野) is crucial for feature embedding in a Siamese framework.
3). only RF in a certain size range allows the feature to abstract the characteristics of the object, and its ideal size is closely related to the size of the exemplar image.
4). For the output feature size, it is observed that a small size (OFS ≤ 3) does not benefit tracking accuracy.
5). Network padding has a highly negative impact on the final performance.
上面表格 2,展現了 AlexNet 和 VGG-10 都不帶 padding,而 Inception 和 ResNet 都帶有 padding。
做者發現,這種 padding 會致使以下的問題:lead to inconsisitency between embeddingings of target object appearing at different positions in search images, and therefore, the matching similarity comparison degrades. 當一個物體移動到圖像邊緣時,其峯值再也不可以準確的反應目標的位置。當跟蹤器沒法在上一幀準肯定位時,這一般就會致使跟蹤器漂移。
3.2 Guidelines:
根據上述實驗和觀察,做者給出了以下的四個基礎的指南,來下降上述影響因子的干擾:
* Siamese trackers prefer a relatively small network stride.
* The receptive field of output features should be set based on its ratio to the size of the exemplar image.
* Network stride, receptive field and output feature size should be consisdered as a whole when designing a network architecture.
* For a fully convolutional Siamese matching network, it is critical to handle the problem of perceptual inconsistency between the two network streams.
4. Deeper and Wider Siamese Networks:
4.1 Cropping-Inside Residual (CIR) Units:
CIR Unit. 在原始版本的 Residual 單元中,是帶有 padding,而以前的觀測代表 padding 會致使 Siamese Tracker 位置偏移。因此,咱們應該 remove 掉這個 padding 的過程,而後使其適應 Siamese Tracker。爲了達到這個目的,咱們用一個 cropping operation 來加強 residual unit,即:在特徵相加完成後,加一個 crop 操做(下圖淡藍色標記)。這個 cropping 操做符移除了被 zero-padding signals 所影響的 feature。因爲 bottleneck layer 的 padding size 是 1,僅僅最邊緣的 features 被刪除。這個簡單的操做極大的移除了殘差單元中的 padding-affected features。
Downsampling CIR (CIR-D) Unit. 下采樣殘差單元也是網絡設計中一個重要的構建模塊。其用於下降 feature map 的空間大小,同時使得 feature channels 變爲兩倍。因爲這個模塊中也包含 padding,因此也採用 crop 操做。做者將卷積的步長,由 2 設置爲 1。這些改變的關鍵點在於:確保僅因爲padding引發的feature被刪除,而內部模塊的結構不變。
CIR-Inception and CIR-NeXt Units. 做者也將這種結構用於構建 multi-branch structure, 確保其能夠構建 wide 的網絡。
4.2 Network Architecture:
做者將上述網絡結構,經過堆疊的方式,設計出了多個版本的 backbone,並在表格 3 中展現了 4 種不一樣深度的結構(16, 19, 22 and 43)。
此外,做者也設計了兩種 wide 的網絡結構,即表格 3 中的 CIResInception-22 and CIResNeXt-22。
5. Experiments:
==