Multimodal Encoder-Decoder Attention Networks for Visual Question Answering論文筆記

時間 2020-12-25

標籤 VQA 简体版

原文原文鏈接

這篇論文，作者提出了一個MEDA組成的MEDAN（多模態編碼解碼注意力網絡）。作者發現在共同注意中，在學習圖像區域的細粒度特徵時，首先學習問題引導注意特徵與首先學習自我注意特徵是不同的，後者可以獲得更好的圖像區域表示。原因可能是前者有助於理解圖像，而後者更像是一個基於對圖像的理解模塊。如上圖所示，每個MEDA層都包括一個編碼器模塊和一個解碼器模塊（這裏和transformer很像）。編碼器的核

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。