《Multi-level Attention Networks for Visual Question Answering》閱讀筆記

《Multi-level Attention Networks for Visual Question Answering》閱讀筆記 一、研究背景 effective semantic embedding and fine-grained visual understanding; 人類語言問題以明確的查詢意圖傳達強大的高級語義,而具有數萬個像素的真實世界圖像則相對低級且抽象,由於衆所周知的語義差
相關文章
相關標籤/搜索