Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering

時間 2021-01-04

原文原文鏈接

雖然以前的VQA直接將Image-Question元組（I，Q）映射到應答（A），但GVQA將VQA的任務分爲兩步：LOOK：找到回答問題所需的對象/圖像塊，並識別塊中的視覺概念；從問題中找出合理答案的空間，並通過考慮哪些概念是合理的，從一組公認的視覺概念中返回適當的視覺概念。 GVQA的另一個新穎之處是它把回答「是」/「否」作爲一項直觀的驗證任務。給定一個問題和一個圖像，問題首先通過問題分類器