Multimodal Encoder-Decoder Attention Networks for Visual Question Answering論文筆記

這篇論文,作者提出了一個MEDA組成的MEDAN(多模態編碼解碼注意力網絡)。 作者發現在共同注意中,在學習圖像區域的細粒度特徵時,首先學習問題引導注意特徵與首先學習自我注意特徵是不同的,後者可以獲得更好的圖像區域表示。原因可能是前者有助於理解圖像,而後者更像是一個基於對圖像的理解模塊。 如上圖所示,每個MEDA層都包括一個編碼器模塊和一個解碼器模塊(這裏和transformer很像)。編碼器的核
相關文章
相關標籤/搜索