基於tensorflow的視覺問答系統構建

時間 2021-01-19

原文原文鏈接

視覺問答（Visual Question Answering，VQA），是多模態數據挖掘的前沿應用之一，裏面涉及計算機視覺和自然語言處理的學習任務。VQA系統需要將圖片和問題作爲輸入，結合這兩部分信息，產生一條人類語言作爲輸出。針對一張特定的圖片，如果想要機器以自然語言來回答關於該圖片的某一個特定問題，我們需要讓機器對圖片的內容、問題的含義和意圖以及相關的常識有一定的理解。現有視覺問答的模型基本

>>阅读原文<<