《圖文匹配&VQA》小結

圖文匹配以及圖像的QA是圖像與文本多模態融合,是計算機視覺與自然語言處理的交叉。 圖文匹配:將圖像與文本都映射到一個相同的語義空間,然後通過距離對他們的相似度進行判斷。 圖文匹配問題與VQA最大的不同就是,需要比對兩種特徵之間的距離。將文本和圖像分別做attention,DAN計算每一步attention後的文本和圖像向量相似度累加得到similarity. VQA:給定一張圖像和一個關於該圖像內
相關文章
相關標籤/搜索