深度學習中的VQA(視覺問答)技術

視覺問答(Visual Question Answering,VQA)是一個需要理解文本和視覺的新領域。由於深度學習技術顯著地改善了自然語言處理和計算機視覺結果,我們可以合理地預期VQA將在未來幾年變得越來越準確。視覺問答主要涉及圖像文本倆種模態信息。 目前的方法一般來說,我們可以概述VQA中的方法如下: 從問題中提取特徵。 從圖像中提取特徵。 結合這些特徵來生成答案。 對於文本特徵,可以使用諸如
相關文章
相關標籤/搜索