Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering

雖然以前的VQA直接將Image-Question元組(I,Q)映射到應答(A),但GVQA將VQA的任務分爲兩步:LOOK:找到回答問題所需的對象/圖像塊,並識別塊中的視覺概念;從問題中找出合理答案的空間,並通過考慮哪些概念是合理的,從一組公認的視覺概念中返回適當的視覺概念。 GVQA的另一個新穎之處是它把回答「是」/「否」作爲一項直觀的驗證任務。 給定一個問題和一個圖像,問題首先通過問題分類器
相關文章
相關標籤/搜索