多模態,常用數據集

VQA Visual Question Answeing. 看圖並回答用自然語言表述的相關問題. 問題包括選擇題,數字題, 開放題. The goal of visual question answering (VQA) (Antol et al., 2015) is to answer a natural language question related to an image. We tak
相關文章
相關標籤/搜索