【文章閱讀visual granding】GuessWhat?! Visual object discovery through multi-modal dialogue

一、文章主要有兩個貢獻點       1、建立了基於對話的visual granding數據集       2、給出了基於深度學習的baseline model 二、數據集 這是數據集中的兩個例子,可以發現每一張圖有一個instance級別的標註,並且對應若干個問答形式的描述!任務的目的在於通過這些問答形式的描述,自動的確定所描述的目標物體是誰! 三、基礎模型 從圖中可以發現,模型的結構還是比較簡
相關文章
相關標籤/搜索