基於tensorflow的視覺問答系統構建

視覺問答(Visual Question Answering,VQA),是多模態數據挖掘的前沿應用之一,裏面涉及計算機視覺和自然語言處理的學習任務。VQA系統需要將圖片和問題作爲輸入,結合這兩部分信息,產生一條人類語言作爲輸出。針對一張特定的圖片,如果想要機器以自然語言來回答關於該圖片的某一個特定問題,我們需要讓機器對圖片的內容、問題的含義和意圖以及相關的常識有一定的理解。 現有視覺問答的模型基本
相關文章
相關標籤/搜索