基於Bert的Vison-Language多模態網絡

時間 2021-01-06

原文原文鏈接

多模態任務 VQA 用自然語言對給定圖片作相關提問. Image-text retrieval 圖像-文本跨模態檢索,任務是根據語言描述,從候選中選定相關的圖片, 反之亦然, 即也可以給定圖片選文本.數據集如MSCOCO ,Flickr30K. VCR, Visual Commonsense Reasoning 不太明白, 先搬過來. Given an image, the VCR task p

>>阅读原文<<