基於Bert的Vison-Language多模態網絡

多模態任務 VQA 用自然語言對給定圖片作相關提問. Image-text retrieval 圖像-文本 跨模態檢索,任務是根據語言描述,從候選中選定相關的圖片, 反之亦然, 即也可以給定圖片選文本.數據集如MSCOCO ,Flickr30K. VCR, Visual Commonsense Reasoning 不太明白, 先搬過來. Given an image, the VCR task p
相關文章
相關標籤/搜索