《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》閱讀筆記

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》閱讀筆記 一、研究背景 Bilinear models在視覺問答(VQA)任務中進行信息融合提供了一個吸引人的框架。 它們有助於學習question meaning 和 visual concepts in the image之間的高層次關係,但它們存在高維度問題。 論文引
相關文章
相關標籤/搜索