視覺問答05day

視覺問答(VQA)的關鍵解決方案在於如何融合從輸入圖像和問題中提取的視覺和語言特徵。 傳統方法        根據數據集中訓練集答案出現的 次數設定一個閾值,保留出現過一定次數的答案,作爲答案 的候選選項形成一個答案候選集。然後把每一個候選答案設 置爲不同的標籤,將 VQA 問題作爲一個分類問題來解決。 該模型回答的答案大多都與圖像無關並且隨着數據集的不同 會回答差別很大的答案。 SWQA模型:
相關文章
相關標籤/搜索