視覺問答研究報告

摘 要:視覺問答(Visual Question Answering,VQA)是一項涉及計算機 視覺、自然語言理解、知識表示與推理的學習任務。其標準定義譯爲中 文通俗來說爲:視覺問答系統的輸入爲一張圖像和一個關於這張圖像形 式自由、開放式的自然語言問題,經過系統處理後提供一個準確的自然 語言答案作爲輸出,也即是基於一張圖像的問答處理。因此視覺問答系 統不僅要理解文字形式提出的問題,還需要進行圖像處
相關文章
相關標籤/搜索