Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering簡介

本篇文章介紹的VQAv2是人工標註的開放式問答數據集,通過收集互補的圖像來平衡目前的VQA數據集,針對視覺問題回答(VQA)任務的語言偏見,使視覺(VQA中的V)變得重要,相較於VQAv1儘量減少了語言偏見(爲每個問題補充了圖片)。 同時,本文提出一個新的用於識別互補圖像的數據收集模型,該模型除了爲給定的(圖像、問題)對提供答案外,還提供基於反例的解釋。具體來說,它識別出與原始圖像相似的圖像,但它
相關文章
相關標籤/搜索