視覺理解論文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag

摘要 本篇論文的作者來自於佐治亞理工學院、俄勒岡州立大學、Facebook AI 研究院。本文提出ViLBERT(Vision-and-Language BERT),該模型用來學習任務無關的圖像和自然語言聯合表徵。ViLBERT在BERT的基礎上拓展爲多模態的雙流模型,在各自的流中處理圖像和文本輸入,這兩個流通過Co-attention transformer層進行交互。ViLBERT應用到下游任
相關文章
相關標籤/搜索