多模態bert-基於雙流的bert 筆記 ViLBert、LXMERT、IMAGEBERT

時間 2021-01-06

原文原文鏈接

ViLBert paper: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 基於雙流的 ViLBERT，在一開始並未直接對語言信息和圖片信息進行融合，而是先各自經過 Transformer 的編碼器進行編碼。分流設計是基於這樣一個假設，語言的理解本

>>阅读原文<<