論文小綜 | Using External Knowledge on VQA

本文轉載自公衆號:浙大KG。 本文作者:陳卓,浙江大學在讀博士,主要研究方向爲圖神經網絡和知識圖譜表示學習 我們生活在一個多模態的世界中。視覺的捕捉與理解,知識的學習與感知,語言的交流與表達,諸多方面的信息促進着我們對於世界的認知。作爲多模態領域一個典型的場景,VQA(視覺問答)顧名思義,也就是結合視覺的信息來回答所提出的問題。其於15年首次被提出[1],涉及的方法從最開始的聯合編碼,到雙線性融合
相關文章
相關標籤/搜索