Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering 心得體會

論文鏈接:https://arxiv.org/abs/1812.05252 這篇論文提出了一種新的多模態特徵融合方法——模式內與模式間注意流的動態融合的視覺問題回答,它可以在視覺和語言模式之間傳遞動態信息,它能夠很好地捕捉語言和視覺領域之間的高層交互,從而顯着地提高了視覺問題回答的性能。 近年來,視覺問答(VQA)的性能得到了很大的提高,原因主要有三點: 提取到了很好的視覺和語言特徵表示;VGG,
相關文章
相關標籤/搜索