視覺問答05day

時間 2021-01-22

原文原文鏈接

視覺問答（VQA）的關鍵解決方案在於如何融合從輸入圖像和問題中提取的視覺和語言特徵。傳統方法根據數據集中訓練集答案出現的次數設定一個閾值，保留出現過一定次數的答案，作爲答案的候選選項形成一個答案候選集。然後把每一個候選答案設置爲不同的標籤，將 VQA 問題作爲一個分類問題來解決。該模型回答的答案大多都與圖像無關並且隨着數據集的不同會回答差別很大的答案。 SWQA模型：

>>阅读原文<<