多模態bert-基於雙流的bert 筆記 ViLBert、LXMERT、IMAGEBERT

ViLBert   paper: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 基於雙流的 ViLBERT,在一開始並未直接對語言信息和圖片信息進行融合,而是先各自經過 Transformer 的編碼器進行編碼。分流設計是基於這樣一個假設,語言的理解本
相關文章
相關標籤/搜索