視覺理解論文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag

時間 2021-05-15

原文原文鏈接

摘要本篇論文的作者來自於佐治亞理工學院、俄勒岡州立大學、Facebook AI 研究院。本文提出ViLBERT(Vision-and-Language BERT)，該模型用來學習任務無關的圖像和自然語言聯合表徵。ViLBERT在BERT的基礎上拓展爲多模態的雙流模型，在各自的流中處理圖像和文本輸入，這兩個流通過Co-attention transformer層進行交互。ViLBERT應用到下游任