深度學習中的VQA(視覺問答)技術

時間 2021-01-13

原文原文鏈接

視覺問答（Visual Question Answering，VQA）是一個需要理解文本和視覺的新領域。由於深度學習技術顯著地改善了自然語言處理和計算機視覺結果，我們可以合理地預期VQA將在未來幾年變得越來越準確。視覺問答主要涉及圖像文本倆種模態信息。目前的方法一般來說，我們可以概述VQA中的方法如下：從問題中提取特徵。從圖像中提取特徵。結合這些特徵來生成答案。對於文本特徵，可以使用諸如

>>阅读原文<<