Robust Deep Multi-modal Learning Based on Gated Information Fusion Network 網絡
2018-07-27 14:25:26
app
Paper:https://arxiv.org/pdf/1807.06233.pdf
ide
Related Papers: 函數
1. Infrared and visible image fusion methods and applications: A survey Paper
ui
2. Chenglong Li, Xiao Wang, Lei Zhang, Jin Tang, Hejun Wu, and Liang Lin. WELD: Weighted Low-rank Decomposition or Robust Grayscale-Thermal Foreground Detection. IEEE Transactions on Circuits and Systems for Video Technology (T-CSVT), 27(4): 725-738, 2017. [Project page with Dataset and Code]google
3. Chenglong Li, Xinyan Liang, Yijuan Lu, Nan Zhao, and Jin Tang. RGB-T Object Tracking: Benchmark and Baseline.[arXiv] [Dataset: Google drive, Baidu cloud] [Project page] spa
本文針對多模態融合問題(Multi-modal),提出一種基於 gate 機制的融合策略,可以自適應的進行多模態信息的融合。做者將該方法用到了物體檢測上,其大體流程圖以下所示:3d
如上圖所示,做者分別用兩路 Network 來提取兩個模態的特徵。該網絡是由標準的 VGG-16 和 8 extra convolutional layers 構成。另外,做者提出新的 GIF(Gated Information Fusion Network) 網絡進行多個模態之間信息的融合,以取得更好的結果。動機固然就是多個模態的信息,是互補的,可是有的信息幫助會更大,有的可能就質量比較差,功效比較小,因而就能夠自適應的來融合,達到更好的效果。orm
Gated Information Fusion Network (GIF): blog
如上圖所示:
該 GIF 網絡的輸入是:已經提取的 CNN feature map,這裏是 F1, F2. 而後,將這兩個 feature 進行 concatenate,獲得 $F_G$. 該網絡包含兩個部分:
1. information fusion network(圖2,虛線框意外的部分);
2. weight generation network (WG Network,即:圖2,虛線處);
Weight Generation Network 分別用兩個 3*3*1 的卷積覈對組合後的 feature map $F_G$ 進行操做,而後輸入到 sigmoid 函數中,即:gate layer,而後輸出對應的權重 $w_1$,$w_2$。
Information fusion network 分別用獲得的兩個權重,點乘原始的 feature map,獲得加權之後的特徵圖,將二者進行 concatenate 後,用 1*1*2k 的卷積核,獲得最終的 feature map。
總結整個過程,能夠概括爲:
== Done !