Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering 心得體會

時間 2021-01-04

原文原文鏈接

論文鏈接：https://arxiv.org/abs/1812.05252 這篇論文提出了一種新的多模態特徵融合方法——模式內與模式間注意流的動態融合的視覺問題回答，它可以在視覺和語言模式之間傳遞動態信息，它能夠很好地捕捉語言和視覺領域之間的高層交互，從而顯着地提高了視覺問題回答的性能。近年來，視覺問答(VQA)的性能得到了很大的提高，原因主要有三點：提取到了很好的視覺和語言特徵表示；VGG，