《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》閱讀筆記

時間 2020-12-25

原文原文鏈接

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》閱讀筆記一、研究背景 Bilinear models在視覺問答（VQA）任務中進行信息融合提供了一個吸引人的框架。它們有助於學習question meaning 和 visual concepts in the image之間的高層次關係，但它們存在高維度問題。論文引

>>阅读原文<<