【論文閱讀】【CVPR2017】Dual Attention Networks for Multimodal Reasoning and Matching

Abstract 我們提出雙重注意網絡模型(DANs)利用視覺和文字共同注意機制捕捉視覺和語言之間的細微互動。 DANs關注圖像和文字的特定區域文本信息,這些文本信息是通過多個步驟收集來自兩種模式的重要信息。 基於這個框架,我們引入兩種類型的DANs進行多模態推理,匹配以及分類。 推理模型允許可視化並在協作推理期間用文本注意機制互相關聯,這對於視覺問答(VQA)等任務很有用。 此外,匹配模型利用文
相關文章
相關標籤/搜索